Praxistipps Word: Ein Format in aller Offenheit?

(Montero Pineda, Manuel, Herkert, Steffen, Klevenz, Tobias, Kutscherauer, Nico: Praxistipps Word: Ein Format in aller Offenheit?, in: technische kommunikation, Heft 1, 2009).

Heutige Textverarbeitungsprogramme nähern sich immer mehr dem Funktionsumfang einer DTP-Anwendung an. Einbinden von Grafiken und Tabellen, Umgang mit Schrift, Gliederung in Spalten und Verwendung von Textfeldern – Funktionen, die ursprünglich nicht zur Textverarbeitung gehörten, sind inzwischen Bestandteil gängiger Office-Lösungen. Je umfangreicher Office-Anwendungen werden, desto komplexere Dateiformate entstehen. Immer mehr Softwareanbieter erkennen daher die Vorteile einer XML-Schnittstelle und setzen auf XML-basierte Dateiformate.

Microsoft Word ist eindeutiger Marktführer im Bereich Textverarbeitung. Jahrelang galt das Word-Format DOC als Standard. Seit Microsoft Word 2003 existiert neben dem proprietären Format die Möglichkeit, Word-Dokumente als WordprocessingML, kurz „WordML“, zu speichern. WordML ist eine Anwendung von XML wie XHTML, Docbook oder DITA. Sie ist offengelegt und mittels XSLT-Transformationen in andere XML-Formate konvertierbar. Während in Office 2003 WordML nur ein mögliches Speicherformat darstellt und der Anwender als Standard das DOC-Format nutzt, setzt Microsoft für Word 2007 auf ein neues Format: DOCX, eine ZIP-komprimierte XML-Datensammlung auf Grundlage des offenen Standards Office Open XML (OOXML). Im März 2008 wurde die Formatspezifikation von OOXML zum ISO-Standard erklärt. Dessen Veröffentlichung ist aufgrund von Einsprüchen bislang nicht erfolgt. Die Einsprüche wurden aber bereits abgewiesen.

Sprachen von OOXML

Wie der Name ausdrückt, umfasst Office Open XML nicht nur die Auszeichnungssprache für Microsoft Word. Das Format bindet auf dieser Ebene auch die anderen Formate des Office-Paketes mit ein. Die Hauptbestandteile von OOXML sind:

  • WordProcessingML, eine geringfügig überarbeitete Version der bereits für Word 2003 entwickelten XML-Anwendung, die alle Textverarbeitungs- und Textgestaltungsfunktionen von Word übernimmt.
  • SpreadsheetML, die zur Einbindung von Excel Tabellen dient.
  • PresentationML, die Funktionen von Powerpoint abdeckt.

Die Dateiendungen von Excel und Powerpoint werden um das obligatorische „x“ erweitert, womit wohl auf XML als Bestandteil hingewiesen werden soll: XLSX und PPTX.
Zusätzlich kann Word auch mathematische Gleichungen und Vektorzeichnungen darstellen. Ursprünglich hatte sich für mathematische Gleichungen die von W3C empfohlene Mathematical Markup Language, „MathML“, als Standard durchgesetzt. Microsoft verwendet in OOXML jedoch eine eigene XML-Sprache: Office MathML (OMML). Durch die Ähnlichkeit kann mittels XSL-Transformation eine partielle Kompatibilität zwischen MathML und OMML erzeugt werden. Für Vektorgrafiken wird DrawingML verwendet anstatt der vom W3C standardisierten und durchaus etablierten Sprache SVG.

Aufbau von OOXML am Beispiel Word

Wie erwähnt, handelt es sich bei einem DOCX-Dokument um eine als ZIP-Container komprimierte Datei. Wird eine DOCX-Datei dekomprimiert, erhält der Anwender eine festgelegte Ordnerstruktur. In dieser Struktur sind alle notwendigen Informationen des Word-Dokuments als eine Art Sammlung von XML-Dateien und Nicht-XML-Dateien gespeichert. Die Struktur des ZIP-Containers ist durch die Open Packaging Conventions (OPC) spezifiziert – ein Teil der OOXML-Standardisierung.

Nach dem Entpacken wird deutlich, was alles in einem DOCX-Dokument steckt.

Abb.: Nach dem Entpacken wird deutlich, was alles in einem DOCX-Dokument steckt.

Die XML-Dateien im ZIP-Container können in „Parts“ und „Items“ unterschieden werden. Parts sind Dateien, die Teile des Inhalts eines Dokumentes enthalten, während Items Meta-Daten über diese Dateien liefern. Hierzu gibt es wiederum eine Unterscheidung in Content-Typ-Items und Relationship-Items. Relationship-Items bestimmen, wie die einzelnen Parts zu einem Dokument zusammengesetzt werden. Content-Typ-Items dagegen regeln die Darstellung des Inhaltes, zum Beispiel Formatierungsanweisungen oder Seitenformat. Jedes Dokument hat einen Main-Part. Er ist gewöhnlich im DOCX-ZIP-Container in der Datei document.xml im Ordner „word“ zu finden. In dieser Datei stecken alle Inhalte, die in Word als Fließtext enthalten sind. In anderen Dateien, die im Verzeichnis „word“ angelegt sind, werden folgende Inhalte gespeichert:

  • Aufzählungszeichen und Nummerierungen, die als solche automatisch oder mit einer entsprechenden Funktion erstellt wurden. Hier werden jedoch nur die Zeichen, nicht die Inhalte dieser Aufzählungen in einer externen XML-Datei abgelegt. In dieser Datei werden beispielsweise die Symbole einer Aufzählung in der Datei „numbering.xml“ ausgelagert.
  • Der statische Inhalt von Fuß- und Kopfzeilen wird in der Datei „footer[N].xml“ beziehungsweise „header[N].xml“ gespeichert. „N“ steht für eine Ganzzahl, die die Position, des Objektes innerhalb des Dokumentes angibt. Da der Fuß- und Kopfbereich nicht auf jeder Seite den gleichen Inhalt enthalten muss, aber kann, darf es von diesen Parts verschiedene geben.
  • Die über die entsprechende Funktion eingefügten Fuß- und Endnoten werden in „footnotes.xml“ beziehungsweise „endnotes.xml“ gesammelt.

Für die in Diagrammen eingebundene Grafiken, „SmartArt“(-Diagramme), und für das Inhaltsverzeichnis wird jeweils ein Unterordner erzeugt:

  • Unter „charts/chartN.xml“ sind die notwendigen Daten für diese Diagramme zu finden. Excel-Tabellen werden hierbei im Unterordner „embeddings“ eingebunden.
  • Der Unterordner „diagramms“ enthält mit „data[N].xml“ nicht nur die Inhalte der SmartArt-Diagramme, sondern mit „colors[N].xml“, „layout[N ].xml“ und „quickStyle[N].xml“ auch die notwendigen Metainformationen als Content-Typ-Items.

Als eigenes Sub-Dokument wird das Inhaltsverzeichnis im Ordner „glossary“ gespeichert.
Zu den Content-Type-Items lassen sich beispielsweise fontTable.xml, settings.xml, styles.xml und webSettings. xml zählen, die in jedem OOXML-Dokument vorhanden sind.
Die allgemeinen Dokumenteigenschaften werden in settings.xml gespeichert, eine Liste der verwendeten Schriftfonts in fontTable.xml und die verschiedenen Formatierungsanweisungen, mit denen die Inhalte ausgezeichnet wurden, in styles.xml. Gibt es spezielle Anweisungen für die Web-Darstellung, dann ist für diese die Datei webSettings.xml reserviert. Neben diesen Items befindet sich standardmäßig die Datei [Content_Types].xml in der obersten Ebene des ZIP-Containers, die den Inhalt des kompletten Archivs beschreibt.
Im docProps-Ordner befinden sich die Dateien app. xml und core.xml, die den Kontext betreffende Dokumenteigenschaften enthalten. Hintergrundinformationen für die Applikation, hier also Microsoft Word, über Autor, Seitenanzahl, Wörteranzahl, Zeichenanzahl oder Version der Applikation sind in app.xml gespeichert. In core.xml sind das Datum der letzten Speicherung und das Datum der Erzeugung vermerkt.

ODF – die Konkurrenz

Bevor Office Open XML als ISO-Standard nominiert wurde, gab es bereits einen entsprechenden Standard, der sich mit Dokumentformaten für Büroanwendungen befasst hat. Schon 2006 wurde das OASIS Open Document Format for Office Applications, „OpenDocument“ oder „ODF“, als ISO-Standard spezifiziert. Im Gegensatz zu OOXML, das auf die Eigenschaften von Microsoft Word zugeschnitten ist, basiert ODF auf dem Dateiformat der freien Anwendung OpenOffice. Durch den zeitlichen Vorsprung erhält ODF nicht nur durch die Anhänger der Open-Source- Bewegung Unterstützung, auch durch IT-Unternehmen wie IBM, Oracle, Sun Microsystems und Google sowie durch diverse Behörden.

Kritik an OOXML

Hauptkritikpunkte sind der Umfang der Spezifikation von OOXML, etwa 6.000 Seiten, sowie die Inkompatibilität zu etablierten Standards wie MathML oder SVG. Der enorme Umfang der Spezifikation verhindert eine vollständige Unterstützung des OOXML-Standards durch Konkurrenzprodukte. Selbst MS Office soll erst in der nächsten Version den Standard vollständig unterstützen, auch MS Office 2007 benutzt ihn nur als Basis.
Ebenso erschweren die Verwendung von Office MathML anstatt MathML und DrawingML an Stelle von SVG die Unterstützung von OOXML durch andere Programme. Um die vollständige Wandlung in die Standards wie ODF oder MathML vollziehen zu können, müssten auch dafür neue Konverter entwickelt werden. Dies widerspricht aber dem Grundgedanken einer allgemeingültigen Standardisierung, die wiederum auf Standards basieren soll. Hinzu kommt, dass die neue Version von WordML keinesfalls die strukturellen Probleme dieser XML-Sprache löst.
Doch OOXML hat nicht nur gegen Formate der Konkurrenz zu bestehen. Jede Neuerung der Software ist verbunden mit einem langwierigen Umstellungsprozess, damit Vorgängerversion unterstützt werden können. Da alte Office-Versionen ohne Erweiterungsfunktionen keine DOCX-Dateien unterstützen, kommt es zu Kompatibilitätsproblemen. Die Entwicklung eines neuen Konverters ist erforderlich. Das DOCX-Format muss sich daher zuerst intern gegen das verbreitete DOC-Format behaupten.
Mit Blick auf die bisherige Politik von Microsoft kann die derzeitige Entwicklung als Durchbruch angesehen werden. Den Beigeschmack der Monopolisierung kann oder will der Multikonzern jedoch noch nicht los werden.

   

<< zurück vor >>

 

 

 

Tipp der data2type-Redaktion:
Zum Thema WordML bieten wir auch folgende Schulungen zur Vertiefung und professionellen Fortbildung an:

Copyright © 2009 tcwolrd GmbH
Für Ihren privaten Gebrauch dürfen Sie die Online-Version ausdrucken.
Ansonsten unterliegt dieser Artikel aus der Fachzeitschrift "technische kommunikation" (Heft 1, 2009) denselben Bestimmungen wie die gebundene Ausgabe: Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Alle Rechte vorbehalten einschließlich der Vervielfältigung, Übersetzung, Mikroverfilmung sowie Einspeicherung und Verarbeitung in elektronischen Systemen.

tcworld GmbH, Rotebühlstraße 64, 70178 Stuttgart, info@tekom.de, www.tekom.de