ISO-Zeichensätze

(Auszug aus "XML in a Nutshell" von Elliotte Rusty Harold & W. Scott Means)

Unicode ist erst in jüngster Zeit Gemeingut geworden. Zuvor zwangen die Platz- und Verarbeitungsanforderungen, die an Unicode-Dateien gestellt wurden, die Hersteller dazu, kleinere Ein-Byte-Zeichensätze zu bevorzugen, die nur mit Englisch und einigen anderen halbwegs interessanten Sprachen und nicht mit dem vollen Spektrum der menschlichen Sprachen umgehen konnten. Die International Standards Organization (ISO) hat 15 dieser Zeichensätze als ISO-Standard 8859 standardisiert. Bei all diesen Ein-Byte-Zeichensätzen sind die Zeichen 0 bis 127 identisch mit dem ASCII-Zeichensatz, die Zeichen 128 bis 159 sind C1-Steuerkommandos, und die Zeichen 160 bis 255 sind zusätzliche Zeichen, die für Schriften wie Griechisch, Kyrillisch und Türkisch benötigt werden.

ISO-8859-1 (Latin-1)

ASCII zuzüglich der Buchstaben mit Akzenten und anderen Zeichen, die für die meisten der vom Lateinischen abgeleiteten Schriften der westeuropäischen Sprachen nötig sind, einschließlich Dänisch, Holländisch, Finnisch, Französisch, Deutsch, Isländisch, Italienisch, Norwegisch, Portugiesisch, Spanisch und Schwedisch.

ISO-8859-2 (Latin-2)

ASCII zuzüglich der Buchstaben mit Akzenten und anderen Zeichen, die für die meisten der vom Lateinischen abgeleiteten Schriften der Sprachen Zentral- und Osteuropas gebraucht werden, einschließlich Tschechisch, Deutsch, Ungarisch, Polnisch, Rumänisch, Kroatisch, Slowakisch, Slowenisch und Sorbisch.

ISO-8859-3 (Latin-3)

ASCII zuzüglich der Buchstaben mit Akzenten und anderen Zeichen, mit deren Hilfe man Esperanto, Maltesisch und Türkisch schreiben kann.

ISO-8859-4 (Latin-4)

ASCII zuzüglich der Buchstaben mit Akzenten und anderen Zeichen, mit denen man die meisten baltischen Sprachen schreiben kann, einschließlich Estnisch, Lettisch, Litauisch, Grönländisch und Samisch. Inzwischen veraltet. Neue Anwendungen sollten stattdessen 8859-10 (Latin-6) oder 8859-13 (Latin-7) benutzen.

ISO-8859-5

ASCII zuzüglich des kyrillischen Alphabets, das für Russisch und viele andere Sprachen der früheren Sowjetunion sowie anderer slawischer Länder benutzt wird, einschließlich Bulgarisch, Belorussisch, Mazedonisch, Serbisch und Ukrainisch.

ISO-8859-6

ASCII plus einfaches Arabisch. Der Zeichensatz enthält jedoch nicht die zusätzlichen Buchstaben, die zum Schreiben nicht-arabischer Sprachen wie Farsi und Urdu benutzt werden, die sich der arabischen Schrift bedienen.

ISO-8859-7

ASCII plus modernes Griechisch. Dieser Zeichensatz enthält nicht die zusätzlichen Buchstaben und Akzente, die zum Schreiben des antiken und byzantinischen Griechisch nötig sind.

ISO-8859-8

ASCII einschließlich der hebräischen Schrift, die für Hebräisch und Jiddisch benutzt wird.

ISO-8859-9 (Latin-5)

Im Prinzip identisch mit Latin-1 bis auf die Tatsache, dass sechs isländische Buchstaben, durch sechs türkische Buchstaben ersetzt wurden.

ISO-8859-10 (Latin-6)

ASCII zuzüglich der Buchstaben mit Akzenten und anderen Zeichen, die zum Schreiben der meisten baltischen Sprachen, einschließlich Estnisch, Isländisch, Lettisch, Litauisch, Grönländisch und Samisch benötigt werden.

ISO-8859-11

ASCII plus Thai.

ISO-8859-13 (Latin-7)

Ein weiterer Versuch, den Schriften der baltischen Region gerecht zu werden. Ähnelt Latin-6 mit Ausnahme einiger Fragezeichen.

ISO-8859-14 (Latin-8)

ASCII sowie die keltischen Sprachen, einschließlich Gälisch und Walisisch.

ISO-8859-15 (Latin-9, Latin-0)

Eine überarbeitete Version von Latin-1, die einige unnötige Symbole, wie etwa ¼, durch zusätzliche französische und finnische Buchstaben ersetzt. Anstelle des internationalen Währungszeichens enthalten diese Sätze das Euro-Zeichen €.

ISO-8859-16 (Latin-10)

Eine überarbeitete Version von Latin-2, die für Rumänisch besser geeignet ist. Weitere Sprachen, die von diesem Zeichensatz unterstützt werden, sind Albanisch, Kroatisch, Englisch, Finnisch, Französisch, Deutsch, Ungarisch, Italienisch, Polnisch und Slowenisch.

 

Verschiedene nationale Standardisierungseinrichtungen haben weitere Zeichensätze erstellt, um Schriften und Sprachen abzudecken, die innerhalb ihrer geografischen und politischen Grenzen von Interesse sind. Zum Beispiel entwickelte die Korea Industrial Standards Association den Standard KS C 5601-1992 zur Kodierung von Koreanisch. Diese nationalen Standardzeichensätze können in XML-Dokumenten selbstverständlich ebenfalls benutzt werden, vorausgesetzt, Sie nehmen in dem Dokument die entsprechende Deklaration vor und der Parser weiß, wie er diese Zeichensätze in Unicode übersetzen muss.

  

<< zurück vor >>

 

 

 

Tipp der data2type-Redaktion:
Zum Thema XML bieten wir auch folgende Schulungen zur Vertiefung und professionellen Fortbildung an:

  


Copyright © 2005 O'Reilly Verlag GmbH & Co. KG
Für Ihren privaten Gebrauch dürfen Sie die Online-Version ausdrucken.
Ansonsten unterliegt dieses Kapitel aus dem Buch "XML in a Nutshell" denselben Bestimmungen, wie die gebundene Ausgabe: Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Alle Rechte vorbehalten einschließlich der Vervielfältigung, Übersetzung, Mikroverfilmung sowie Einspeicherung und Verarbeitung in elektronischen Systemen.

O’Reilly Verlag GmbH & Co. KG, Balthasarstraße 81, 50670 Köln, kommentar(at)oreilly.de