XML-Grundlagen: Lesen und Schreiben

(Auszug aus "Perl & XML" von Erik T. Ray & Jason McIntosh)

Dieser Abschnitt behandelt die beiden wichtigsten Vorgänge bei der Arbeit mit XML: das Lesen eines Dokuments in den Hauptspeicher und das Zurückschreiben auf die Festplatte. XML ist ein strukturiertes, deterministisches und standardisiertes Datenformat. Dafür bezahlt man einen gewissen Preis. Die Bearbeitung von Textdateien mit Perl war bislang durch einen zeilenorientierten Schaun-wir-mal-Stil geprägt. XML dagegen setzt zunächst einmal die Kenntnis gewisser Regeln, Strukturen und Protokolle sowie ihre strikte Einhaltung voraus. Wir haben das in Einführung in XML schon kennengelernt. Glücklicherweise ist aber die meiste Arbeit bereits erledigt. Dank der verschiedenen ParserModule und ähnlicher Werkzeuge, die die Pioniere der Arbeit mit Perl und XML zur Verfügung gestellt haben, können wir uns auf ein solides Fundament stellen. Einige dieser Werkzeuge kennen wir bereits aus Perl und XML.

Es ist absolut notwendig, den Umgang mit Parsern zu beherrschen. Im Normalfall erledigen sie den Hauptteil der Arbeit für uns. Zumindest übergeben sie uns die gelesenen Daten in einem Zustand, in dem wir damit arbeiten können. Jeder gute Programmierer weiß, daß vernünftig bereitgestellte Daten die halbe Miete sind. Aus diesem Grund werden wir uns den Prozeß des Parsens sehr genau anschauen und einige der in diesem Zusammenhang üblichen Strategien beschreiben.

Parser stellen eine Unmenge von Optionen bereit, mit denen sie konfigurierbar sind. Damit kann man ihre Ausgabe meist optimal an die eigenen Bedürfnisse anpassen. Welchen Zeichensatz sollte ich verwenden? Soll das Dokument auf Gültigkeit bezüglich einer DTD geprüft werden, oder genügt mir die Wohlgeformtheit? Müssen Entities expandiert werden, oder sollen die Referenzen stehenbleiben? Wie kann man Eventhandler setzen, bzw. wie sagt man dem Parser, daß er einen Baum aufbauen soll? Wir werden alle diese Optionen der Reihe nach erklären, damit Sie das Letzte aus dem Parser herausholen können.

Schließlich werden wir uns auch damit befassen, wie man XML zurückschreibt. Das kann überraschend kompliziert werden, wenn man die Erwartungen von XML in bezug auf Zeichensätze usw. ignoriert. Wenn Sie keine Lust auf eine manuelle Nachkorrektur haben, dann sollten Sie diesem Schritt besondere Beachtung schenken.

  

  

<< zurück vor >>

 

 

 

Tipp der data2type-Redaktion:
Zum Thema Perl & XML bieten wir auch folgende Schulungen zur Vertiefung und professionellen Fortbildung an:

Copyright © 2003 O'Reilly Verlag GmbH & Co. KG
Für Ihren privaten Gebrauch dürfen Sie die Online-Version ausdrucken.
Ansonsten unterliegt dieses Kapitel aus dem Buch "Perl & XML" denselben Bestimmungen, wie die gebundene Ausgabe: Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Alle Rechte vorbehalten einschließlich der Vervielfältigung, Übersetzung, Mikroverfilmung sowie Einspeicherung und Verarbeitung in elektronischen Systemen.

O’Reilly Verlag GmbH & Co. KG, Balthasarstraße 81, 50670 Köln, kommentar(at)oreilly.de