Plattformabhängige Zeichensätze

(Auszug aus "XML in a Nutshell" von Elliotte Rusty Harold & W. Scott Means)

Zusätzlich zu den Standardzeichensätzen, die zuvor beschrieben wurden, haben viele Hersteller das eine oder andere Mal proprietäre Zeichensätze hergestellt, um den Anforderungen ihrer speziellen Plattform gerecht zu werden. Oft enthalten sie Sonderzeichen, für die der Hersteller einen Bedarf sah, wie etwa das Apple-Zeichen, den angebissenen Apfel , oder Zeichen zum Erzeugen von Kästen╒ und ╡, die in frühen DOS-Tabellenkalkulationen für die Zellenbegrenzungen verwendet wurden. Microsoft, IBM und Apple sind die drei produktivsten Erfinder von Zeichensätzen. Der verbreitetste dieser Zeichensätze ist möglicherweise Microsofts Cp1252, eine Variante von Latin-1, die die C1-Steuerkommandos durch weitere grafische Zeichen ersetzt. Heutzutage gibt es Hunderte solcher plattformabhängigen Zeichensätze. Die Qualität dieser Sätze reicht von ausgezeichnet bis miserabel.

Plattformspezifische Zeichensätze wie diese sollten nur innerhalb eines einzigen Systems verwendet werden. Sie sollten niemals in das Netz gelangen oder zum Übertragen von Daten zwischen Systemen benutzt werden. Dies könnte nämlich an unerwarteten Stellen zu hässlichen Überraschungen führen. Zum Beispiel könnte die Darstellung einer Datei, die einige der zusätzlichen Cp1252-Zeichen <, ‰, ^, ”,†, ..., ‡, œ, Œ, •, ',',“,”,–,—, Ÿ, , ™, > und ˜ enthält, auf einem VT-220-Terminal den Bildschirm unbrauchbar machen. Nichtsdestotrotz werden solche Zeichensätze häufig eingesetzt und sind oft im Web zu sehen, selbst wenn sie dort nicht hingehören. Es gibt keine allgemein gültige Regel, die besagt, dass Sie sie nicht in einem XML-Dokument benutzen dürfen, vorausgesetzt, Sie deklarieren die Kodierung richtig und Ihr Parser versteht sie. Der einzige Vorteil bei der Benutzung dieser Sätze besteht darin, dass existierende Text-Editoren mit ihnen vermutlich vertrauter sind als mit Unicode und dessen Freunden. Trotzdem empfehlen wir Ihnen dringend, sie nicht zu verwenden und bei den dokumentierten Standards zu bleiben, die plattformübergreifend viel besser unterstützt werden.

Cp1252

Der am weitesten verbreitete plattformabhängige Zeichensatz, den Sie wahrscheinlich auch im Internet am häufigsten bemerken werden, ist Cp1252, der auch (und fälschlicherweise) als Windows ANSI bezeichnet wird. Dies ist der voreingestellte Zeichensatz, der von den meisten amerikanischen und westeuropäischen Windows-PCs benutzt wird, was sicher auch seine Allgegenwart erklärt. Cp1252 ist ein Ein-Byte-Zeichensatz, der nahezu identisch mit dem Standardzeichensatz ISO-8859-1 ist – in der Tat werden oft Cp1252-Dokumente unkorrekterweise als Latin-1-Dokumente gekennzeichnet. Allerdings ersetzt dieser Zeichensatz die C1-Steuerkommandos zwischen den Kodepunkten 128 und 159 durch zusätzliche grafische Zeichen wie ‰, ‡ und Ÿ. Diese Zeichen verursachen auf anderen Windows-Systemen keine Probleme. Andere Plattformen dagegen werden Schwierigkeiten haben, diese Zeichen richtig darzustellen; in Extremfällen kann es zu Systemabstürzen kommen. Cp1252 (und seine Verwandten, die in nicht-westlichen Windows-Systemen zum Einsatz kommen) sollte vermieden werden.

MacRoman

Das Mac OS benutzt einen anderen nicht-standardisierten Ein-Byte-Zeichensatz, der eine Obermenge von ASCII ist. Die Version, die in Amerika und dem größten Teil Westeuropas verwendet wird, trägt die Bezeichnung MacRoman. Für andere Länder gibt es beispielsweise die Varianten MacGreek, MacHebrew, MacIceland usw. Die meisten Java-basierten XML-Prozessoren können mit diesen Kodierungen etwas anfangen, wenn sie richtig gekennzeichnet sind, die meisten Nicht-Macintosh-Werkzeuge sind dazu jedoch nicht in der Lage.

Wenn zum Beispiel der französische Satz »Au cours des dernières années, XML a été adapte dans des domaines aussi diverses que l'aéronautique, le multimédia, la gestion de hôpitaux, les télécommunications, la théologie, la vente au détail et la littérature médiévale« auf einem Macintosh geschrieben und anschließend auf einem PC gelesen wird, sieht der PC-Benutzer »Au cours des derni?res annžes, XML a žtž adapte dans des domaines aussi diverses que l'ažronautique, le multimždia, la gestion de h™pitaux, les tžlžcommunications, la thžologie, la vente au džtail et la littžrature mždižvale«, was nicht unbedingt dasselbe ist. Im Allgemeinen ist das Ergebnis wenigstens teilweise lesbar, da der größte Teil des Textes ASCII ist, aber sicherlich zeugt das nicht von Genauigkeit oder Qualität. Mac-spezifische Zeichensätze sollten ebenfalls vermieden werden.

  

<< zurück vor >>

 

 

 

Tipp der data2type-Redaktion:
Zum Thema XML bieten wir auch folgende Schulungen zur Vertiefung und professionellen Fortbildung an:

  


Copyright © 2005 O'Reilly Verlag GmbH & Co. KG
Für Ihren privaten Gebrauch dürfen Sie die Online-Version ausdrucken.
Ansonsten unterliegt dieses Kapitel aus dem Buch "XML in a Nutshell" denselben Bestimmungen, wie die gebundene Ausgabe: Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Alle Rechte vorbehalten einschließlich der Vervielfältigung, Übersetzung, Mikroverfilmung sowie Einspeicherung und Verarbeitung in elektronischen Systemen.

O’Reilly Verlag GmbH & Co. KG, Balthasarstraße 81, 50670 Köln, kommentar(at)oreilly.de