Meta-Daten

(Auszug aus "DITA - Der neue Standard für Technische Dokumentation" von Johannes Hentrich)

Bei der Verarbeitung von elektronisch erfassten Informationen spielen Meta-Daten eine entscheidende Rolle. Dabei ist zu unterscheiden, ob Meta-Daten zur direkten Verarbeitung der Daten oder zur indirekten Verarbeitung, das heißt, eher zur Verwaltung der Daten, verwendet werden. In der Spezifikation von DITA wird häufig keine saubere Trennung zwischen diesen beiden Arten von Meta-Daten vorgenommen. Das kann zu Verwirrungen führen, inbesondere dann, wenn man nicht weiß, ob die Meta-Daten in einem Attribut oder in einem Element erfasst werden.

Die folgenden beiden Abschnitte befassen sich mit beiden Typen von Meta-Daten. Dabei werden die Besonderheiten der Definitionen von Meta-Daten bei DITA herausgestellt.

Verwaltung von Daten

Meta-Daten liefern Informationen über Informationen. Mit Meta-Daten werden zusätzliche Informationen geliefert, die nicht explizit im Dokument sichtbar sind, das heißt, dem Nutzer des Dokuments sind die Meta-Daten nicht direkt zugänglich. Dies ist die klassische Definition von Meta-Daten, die auch bei DITA zur Anwendung kommt.

Wenn heute von Meta-Daten gesprochen wird, so werden damit immer Daten bezeichnet, die zu elektronischen Dokumenten, das heißt, Dateien oder Dokumenten hinzugefügt werden. Das Prinzip, das hinter Meta-Daten steckt, ist dagegen schon seit Jahrhunderten bekannt. Vor allem im Bibliothekswesen, das sich unter anderem mit der Klassifizierung von Büchern beschäftigt, wurde schon früh ein Schema zur Verwaltung der Buchdaten entwickelt, das heißt Meta-Daten für Bücher.

Auch aus der Software-Entwicklung ist die Verwendung von Meta-Daten bekannt. So werden Bestandteile eines Programmquelltexts als Meta-Daten bezeichnet, die nicht von einem Compiler ausgewertet werden. Hier dienen Meta-Daten beispielsweise zur Dokumentation des Quellcodes.

Meta-Daten finden sich auch auf Webseiten im World Wide Web. Sie liefern Informationen über die Webseite, das heißt, sie geben Auskunft darüber, wie die Inhalte auf der Seite thematisch einzuordnen sind oder welches die wichtigsten Schlüsselbegriffe auf der Webseite sind. Dieser Zeck erfüllen die Meta-Daten heute nicht mehr. Bei der Verwendung der Meta-Daten zur Beschreibung der Inhalte der Webseite wurde von den Erstellern der Webseiten so viel Mißbrauch getrieben, dass sie heute von Suchmaschinen praktisch nicht mehr ausgewertet werden.

Seit 1994 existiert die Dublin Core Metadata Initiative (DCMI), die eine standardisierte Menge von Konventionen zur Beschreibung von Dokumenten im Internet vorschlug. Obwohl es inzwischen einige Arbeitsgruppen gibt, die an der Entwicklung des Standards arbeiten, haben sich in der Praxis diese Meta-Daten zumindest im WWW nicht durchsetzen können.

Wie das Beispiel aus dem Bibliothekswesen zeigt, werden Meta-Daten vor allem dazu verwendet, große Mengen von Daten zu klassifizieren und zu verwalten. Mithilfe von Meta-Daten können bei einer elektronischen Suche nicht nur die eigentlichen Inhalte der Dokumente durchsucht werden, sondern auch die Meta-Daten. Diese können dann auch Synonyme enthalten, um das Auffinden von Dokumenten durch die Nutzer zu erleichtern.

Für Meta-Daten ist es unerheblich, auf welche Informationsmenge sie angewendet werden. So können Meta-Daten von ganzen Dokumenten bis hin zu einzelnen Wörtern vergeben werden. Für Word-Dokumente oder OpenOffice-Dokumente beispielsweise lassen sich Meta-Daten wie „Titel“, „Autor“, „Kategorie“, „Stichwörter“ usw. zuordnen.

Meta-Daten zu einem Word-Dokument

Abbildung: Meta-Daten zu einem Word-Dokument.

Sollen für einzelne Abschnitte oder Wörter innerhalb eines Dokuments Meta-Daten vergeben werden, so müssen die Abschnitte oder die Wörter „separiert“, das heißt individuell gekennzeichnet werden können. XML-Dokumente sind daher für die Verwendung von Meta-Daten am geeignetsten, da die Elemente innerhalb eines XML-Dokuments die passenden Strukturen für die Verwendung von Meta-Daten darstellen.

Für Meta-Daten wurden nur wenige Standards entwickelt und vor allem dort, wo über einen sehr langen Zeitraum eine große Menge von Daten verwaltet werden muss.

Gerade das WWW zeigt, dass Meta-Daten, die auf beliebige Art verwendet werden können, wenig hilfreich sind, um Suchmaschinen oder auch Nutzer dabei zu unterstützen, Seiten sinnvoll kategorisieren zu können.

Wollen Sie Meta-Daten für DITA-Dateien verwenden, sollten Sie daher eine Richtlinie aufstellen, welche Meta-Daten in welcher Form aufgenommen werden müssen und welche Meta-Daten optional sind. Obwohl Meta-Daten Informationen darstellen, die nicht explizit im Dokument zu sehen sind, ist bei ihrer Erstellung mindestens so viel Sorgfalt erforderlich wie für die Erstellung der eigentlichen Inhalte. Denn elektronische Systeme, die die Meta-Daten auswerten, sind auf jede Unterstützung angewiesen, um die zu verwaltenden Informationen später wieder für den Nutzer zugänglich zu machen. Wenn es für Sie heute keinen Zweifel gibt, dass Sie Ihr Topic aufgrund seines Inhalts jederzeit wiederfinden können, so warten Sie den nächsten Urlaub ab und Sie werden die Meta-Daten zu schätzen wissen.

Wenn danach absehbar ist, dass große Mengen von Topics verwaltet werden sollen, bietet sich die Möglichkeit an, die DTDs von DITA dahingehend zu spezialisieren, sodass die Erfassung von Meta-Daten vorgeschrieben ist. In DITA sind Meta-Daten optionale Elemente. Gerade im Zusammenhang mit der Verwendung von Content-Management-Systemen sollten Sie diese Möglichkeit in Erwägung ziehen.

Eine Regel, ab welcher Informationsmenge Meta-Daten verwendet werden sollen, lässt sich nicht ohne Weiteres aufstellen. Jedoch sollte spätestens dann mit der Erfassung von Meta-Daten begonnen werden, wenn die DITA XML-Dateien mit einem System zur Versionskontrolle oder einem Content-Management-System verwaltet werden.

Verarbeitung von Daten

Bei elektronischen Dokumenten, die durch Meta-Daten gekennzeichnet sind, bietet es sich an, die Meta-Daten an bestimmte Verarbeitungsprozesse zu koppeln. Wie in DITA können über solche Meta-Daten Inhalte ausgefiltert (filtering) oder Inhalte gekennzeichnet (flagging) werden, das heißt, mit einer Farbe oder Grafik markiert werden.

In DITA werden Meta-Daten, die den Verarbeitungsprozess der DITA XML-Dateien beeinflussen, über Attribute vergeben. Der Verarbeitungsmechanismus, das heißt, das DITA Open Toolkit, wertet die Attribute aus und produziert das entsprechende Ausgabemedium mit den ausgefilterten und markierten Inhalten. In DITA wird dieser Prozess als „bedingte Verarbeitung“ bezeichnet. Wie in Automatisierte Verarbeitung gezeigt wurde, benötigt eine bedingte Verarbeitung die dafür notwendigen Werkzeuge.

Die Bezeichnung von Daten als Meta-Daten, die in Attributen gespeichert werden, ist durchaus etwas ungewöhnlich. Denn für die Erfassung von Meta-Daten, die zur Verwaltung der Informationen dienen, werden in der Regel Elemente verwendet. Elemente zur Erfassung von Meta-Daten werden nicht nur bei DITA zur Verfügung gestellt, sondern zum Beispiel auch in der Extensible Name and Address Language. Zahlreiche Elemente der Extensible Name and Address Language sind in der xNAL-Domain von DITA erfasst und werden dazu verwendet, in den Meta-Daten Adressinformationen aufzunehmen.

Hier zeigt sich ein weiterer Unterschied zwischen Meta-Daten, die an Verarbeitungsprozesse gekoppelt sind und Meta-Daten, die zur Verwaltung von Informationen dienen. Meta-Daten zur Verarbeitung von Daten sind an einen speziellen Verarbeitungsprozess gebunden und machen nur Sinn, wenn der Verarbeitungsprozess die Meta-Daten interpretieren kann. Meta-Daten zur Verwaltung von Daten können dagegen in einem viel globaleren Kontext angewendet und sinnvoll sein. Die Meta-Daten für Adressinformationen, die über die Elemente der xNAL-Domain erfasst werden können, bieten hierfür das beste Beispiel.

  

<< zurück vor >>

 

 

 

Tipp der data2type-Redaktion:
Zum Thema DITA bieten wir auch folgende Schulungen zur Vertiefung und professionellen Fortbildung an:

Copyright © 2008 XLcontent Verlag
Für Ihren privaten Gebrauch dürfen Sie die Online-Version ausdrucken.
Ansonsten unterliegt dieses Kapitel aus dem Buch "DITA - Der neue Standard für Technische Dokumentation" denselben Bestimmungen, wie die gebundene Ausgabe: Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Alle Rechte vorbehalten einschließlich der Vervielfältigung, Übersetzung, Mikroverfilmung sowie Einspeicherung und Verarbeitung in elektronischen Systemen.

XLcontent Verlag, Pflegerstraße 40, 81247 München