In XML definierte Zeichensätze

(Auszug aus "XML in a Nutshell" von Elliotte Rusty Harold & W. Scott Means)

Ein XML-Parser muss in der Lage sein, mit den Kodierungen UTF-16 und UTF-8 oder Unicode umzugehen. Allerdings dürfen XML-Parser auch viele andere Zeichensätze verstehen und verarbeiten. Die Spezifikation empfiehlt, dass Verarbeitungsprogramme vor allem diese Kodierungen erkennen und lesen können:

UTF-8 UTF-16
ISO-10646-UCS-2 ISO-10646-UCS-4
ISO-8859-1 ISO-8859-2
ISO-8859-3 ISO-8859-4
ISO-8859-5 ISO-8859-6
ISO-8859-7 ISO-8859-8
ISO-8859-9 ISO-8859-JP
Shift_JIS EUC-JP

Viele XML-Prozessoren verstehen noch weitere Kodierungen. Zum Beispiel kennen Verarbeitungsprogramme, die in Java geschrieben wurden, oft alle Zeichensätze, die in der Java-VM (Java Virtual Machine) zur Verfügung stehen. Darüber hinaus erkennen manche Programme Alias-Bezeichnungen für diese Kodierungen; sowohl Latin-1 als auch 8859_1 werden manchmal als Synonyme für ISO-8859-1 verwendet. Der Einsatz solcher Namen schränkt jedoch die Portabilität Ihres Dokuments ein. Wir empfehlen Ihnen, für Standardkodierungen auch Standardnamen zu verwenden. Bei Kodierungen, deren Name nicht durch die XML 1.0-Spezifikation vorgegeben ist, benutzen Sie einen der Namen, die bei der Internet Assigned Numbers Authority (IANA) registriert sind. Wenn Sie den Namen eines Zeichensatzes kennen und eine Datei in ihm speichern, bedeutet das allerdings nicht, dass Ihr XML-Parser solch eine Datei lesen kann. Von XML-Parsern wird lediglich verlangt, dass sie UTF-8 und UTF-16 unterstützen! Sie müssen nicht die Hunderte von unterschiedlichen Kodierungen kennen, die irgendwo auf der Welt benutzt werden.

  

<< zurück vor >>

 

 

 

Tipp der data2type-Redaktion:
Zum Thema XML bieten wir auch folgende Schulungen zur Vertiefung und professionellen Fortbildung an:

  


Copyright © 2005 O'Reilly Verlag GmbH & Co. KG
Für Ihren privaten Gebrauch dürfen Sie die Online-Version ausdrucken.
Ansonsten unterliegt dieses Kapitel aus dem Buch "XML in a Nutshell" denselben Bestimmungen, wie die gebundene Ausgabe: Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Alle Rechte vorbehalten einschließlich der Vervielfältigung, Übersetzung, Mikroverfilmung sowie Einspeicherung und Verarbeitung in elektronischen Systemen.

O’Reilly Verlag GmbH & Co. KG, Balthasarstraße 81, 50670 Köln, kommentar(at)oreilly.de