Übersicht zu Reguläre Ausdrücke

(Auszug aus "Reguläre Ausdrücke" von Jeffrey E. F. Friedl)

In diesem Buch geht es um ein mächtiges Werkzeug mit dem Namen »Reguläre Ausdrücke«.

Sie werden lernen, wie man mit regulären Ausdrücken Probleme lösen kann und wie man alles aus den Programmen herausholt, die reguläre Ausdrücke verwenden. Nicht nur das: Es geht darum, wie man reguläre Ausdrücke meisterhaft verwendet.

Reguläre Ausdrücke sind in einer großen Anzahl von Programmen eingebaut (Editoren, Textverarbeitungssysteme, Systemwerkzeuge, Datenbanken usw.), aber ihr volles Potenzial spielen sie in Programmiersprachen aus, zum Beispiel in Java und JScript, Visual Basic und VBScript, JavaScript und ECMAScript, C, C++, C#, elisp, Perl, Python, Tcl, Ruby, PHP, sed und awk. In manchen von diesen Programmiersprachen sind die regulären Ausdrücke das eigentliche Herz der Sprache.

Es gibt gute Gründe dafür, dass reguläre Ausdrücke in derart vielen Programmen und Programmiersprachen vorkommen: Reguläre Ausdrücke sind äußerst ausdrucksstark. Auf der untersten Ebene beschreibt ein regulärer Ausdruck ein Textstück. Man kann damit etwa Benutzereingaben überprüfen oder große Datenmengen durchsieben. Auf einer höheren Ebene lassen sich Daten mit regulären Ausdrücken meistern und kontrollieren: Die Daten arbeiten für Sie. Meisterschaft im Umgang mit regulären Ausdrücken bedeutet Meisterschaft im Umgang mit Daten.

Zielpublikum

Das Buch soll jeden ansprechen, der die Möglichkeit hat, reguläre Ausdrücke zu benutzen. Gerade wenn Sie die volle Kraft noch nicht begreifen, die den regulären Ausdrücken innewohnt, kann dieses Buch Ihnen eine ganz neue Welt eröffnen. Dieses Buch soll Ihren Blick erweitern, auch wenn Sie schon viel über reguläre Ausdrücke wissen. Nachdem die erste Auflage dieses Buches herausgekommen war, habe ich nicht selten E-Mails bekommen, in denen die Leser schrieben: »Ich hatte geglaubt, dass ich reguläre Ausdrücke verstehe. Dann habe ich Reguläre Ausdrücke gelesen. Jetzt verstehe ich.«

Programmierer, die Texte verarbeiten müssen ––- die ganze Webprogrammierung fällt darunter -–, finden hier eine Fülle von Einzelheiten, Tipps, Hinweisen und Einsichten in das Thema. Den gebotenen Detailreichtum und Tiefgang findet man sonst schlicht nirgends.

Reguläre Ausdrücke sind ein Konzept –- eines, das auf verschiedenste Weise in vielen Programmen (in viel mehr Programmen, als in diesem Buch beschrieben werden) verwirklicht worden ist. Wenn Sie die generelle Idee verstehen, ist es nur ein kleiner Schritt zur Beherrschung einer spezifischen Implementation. Das Buch konzentriert sich auf dieses Konzept, und das meiste Wissen in den Beispielen geht über die verwendete Sprache hinaus.

Typografische Konventionen

Wenn komplexe Textverarbeitungsprobleme eingehend behandelt werden, ist es wichtig, sich genau auszudrücken. Ein Leerzeichen zuviel oder zu wenig kann einen entscheidenden Unterschied ausmachen. Ich benutze deshalb in diesem Buch folgende Konventionen:

  • Ein regulärer Ausdruck erscheint normalerweise ˹so˼. Die feinen Ecken bedeuten »Das ist ein regulärer Ausdruck«. Literaler Text, also Text, der nicht wie eine Variable für etwas anderes steht, erscheint im Allgemeinen ›so‹‹. Manchmal, wenn keine Verwechslungsgefahr besteht, verzichte ich auch auf die Ecken oder die Anführungszeichen. Programmstücke und Listings werden in ihrer natürlichen Form wiedergegeben, ohne Ecken und Anführungszeichen.
  • In regulären Ausdrücken und literalem Text verwende ich ein besonderes Auslassungszeichen. Zum Beispiel bezeichnet [···] ein Paar eckiger Klammern mit nicht genau bekanntem Inhalt, aber […] ist ein Klammerpaar, das drei literale Punkte enthält.
  • Ohne besondere Vorkehrungen ist es kaum möglich herauszufinden, wie viele Leerzeichen in »a    b« vorhanden sind. Wenn Leerzeichen in regulären Ausdrücken oder manchmal auch in literalem Text vorkommen, verwende ich daher das Symbol ››‹‹. So ist klar, dass ›››●●●●‹‹ exakt vier Leerzeichen enthält.
    Ich benutze außerdem »sichtbare« Zeichen für das Tabulatorzeichen, das Newline und das Wagenrücklauf-Zeichen (Carriage Return):

        Ein Leerzeichen
    TAB  Ein Tabulator-Zeichen
    NL   Ein Newline-Zeichen
    CR   EinWagenrücklauf-Zeichen (Carriage Return)

  • Ich benutze Unterstreichungen und grau unterlegte Zeichen, um bestimmte Teile von regulären Ausdrücken oder literalem Text hervorzuheben. Zum Beispiel:

    Weil ˹ding˼ im Satz ››Diesbedingt,dassdasDingansich···‹‹ eben nicht das Wort ››Ding‹‹ erkennt, ...

    In diesem Fall zeigt der unterstrichene Text den Treffer des regulären Ausdrucks an. Ein anderes Beispiel:

    Damit wir ˹Subject|Date˼ wirklich verwenden können, wird es in Klammern eingefasst, und ein Doppelpunkt und ein Leerzeichen werden angefügt: ˹(Subject|Date):˼.

    Hier zeigen die unterstrichenen Zeichen die Teile an, die eben hinzugefügt worden sind.

Inhalt

  

<< zurück vor >>

 

 

 

Tipp der data2type-Redaktion:
Zum Thema Reguläre Ausdrücke bieten wir auch folgende Schulungen zur Vertiefung und professionellen Fortbildung an:
   

Copyright der deutschen Ausgabe © 2008 by O’Reilly Verlag GmbH & Co. KG
Für Ihren privaten Gebrauch dürfen Sie die Online-Version ausdrucken.
Ansonsten unterliegt dieses Kapitel aus dem Buch "Reguläre Ausdrücke" denselben Bestimmungen, wie die gebundene Ausgabe: Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Alle Rechte vorbehalten einschließlich der Vervielfältigung, Übersetzung, Mikroverfilmung sowie Einspeicherung und Verarbeitung in elektronischen Systemen.

O’Reilly Verlag GmbH & Co. KG, Balthasarstr. 81, 50670 Köln