Internationalisierung

(Auszug aus "XML in a Nutshell" von Elliotte Rusty Harold & W. Scott Means)

Wir haben Ihnen erzählt, dass XML-Dokumente Text enthalten, wir haben Ihnen aber noch nicht verraten, um welche Art von Text es sich dabei handelt. Auf den folgenden Seiten werden wir dieses Versäumnis nachholen. XML-Dokumente enthalten Unicode-Text. Unicode ist ein Zeichensatz, der groß genug ist, um alle lebenden Sprachen der Welt aufzunehmen und darüber hinaus noch ein paar tote. Er kann in verschiedenen Kodierungen auftreten, einschließlich UCS-2 und der ASCII-Obermenge UTF-8. Da Text-Editoren für Unicode nicht so weit verbreitet sind, können XML-Dokumente auch in anderen Zeichensätzen und -kodierungen geschrieben werden, die dann beim Parsen des Dokuments in Unicode umgewandelt werden. Die Encoding-Deklaration gibt an, welchen Zeichensatz ein Dokument benutzt. Sie können Zeichenreferenzen wie θ einsetzen, um Unicode-Zeichen wie θ einzufügen, die im Zeichensatz, in dem ein Dokument geschrieben wird, nicht zur Verfügung stehen.

Computer verstehen Text nicht wirklich. Sie können den lateinischen Buchstaben Z, den griechischen Buchstaben γ oder das Han-Schriftzeichen 譓 nicht erkennen. Alles, was ein Computer versteht, sind Zahlen wie 90, 947 oder 40.821. Ein Zeichensatz bildet bestimmte Zeichen, wie etwa Z, auf bestimmte Zahlen ab, etwa 90. Diese Zahlen werden Kodepunkte (Eng.: Code Points) genannt. Eine Zeichenkodierung legt fest, wie diese Kodepunkte in Bytes repräsentiert werden. Zum Beispiel könnte der Kodepunkt 90 als vorzeichenbehaftetes Byte, als nicht-vorzeichenbehaftetes LSB-Short, als 4-Byte-Wort, als Zweierkomplement, als MSB-Integer oder auf andere kompliziertere Weisen kodiert werden.

Eine menschliche Schrift wie Kyrillisch könnte in mehreren Zeichensätzen geschrieben werden, z. B. KOI8-R, Unicode oder ISO-8859-5. Ein Zeichensatz wie Unicode wiederum könnte mit Hilfe mehrerer Kodierungen kodiert werden, z. B. UTF-8, UCS-2 oder UTF-16. Einfachere Zeichensätze wie ASCII und KOI8-R besitzen jedoch nur eine Kodierung.

  

  

<< zurück vor >>

 

 

 

Tipp der data2type-Redaktion:
Zum Thema XML bieten wir auch folgende Schulungen zur Vertiefung und professionellen Fortbildung an:

  


Copyright © 2005 O'Reilly Verlag GmbH & Co. KG
Für Ihren privaten Gebrauch dürfen Sie die Online-Version ausdrucken.
Ansonsten unterliegt dieses Kapitel aus dem Buch "XML in a Nutshell" denselben Bestimmungen, wie die gebundene Ausgabe: Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Alle Rechte vorbehalten einschließlich der Vervielfältigung, Übersetzung, Mikroverfilmung sowie Einspeicherung und Verarbeitung in elektronischen Systemen.

O’Reilly Verlag GmbH & Co. KG, Balthasarstraße 81, 50670 Köln, kommentar(at)oreilly.de