Anforderungen an RSS

(Auszug aus "Newsfeeds mit RSS und Atom" von Heinz Wittenbrink, erschienen bei Galileo Press, 2005)

Bisher wurden nur einige Anwendungsszenarien für Newsfeeds vorgestellt und auf exemplarische Programme und Dienste hingewiesen, die auf Newsfeeds basieren. Die meisten Anwender wissen gar nicht, dass diese Programme und Dienste durch eigene Dokumenttypen für Newsfeeds möglich werden, die sich von HTML deutlich unterscheiden. Diese Dokumenttypen haben sich als erste XML-Formate im Web in größerem Umfang durchgesetzt.

Das Kürzel "RSS" hat sich als Sammelbezeichnung für diese Newsfeed-Formate etabliert. Der Name "RSS" steht für eine Reihe eng miteinander zusammenhängender Techniken, aktualisierte bzw. aktualisierbare Informationen im Web zu identifizieren und aufzufinden, sie darzustellen und sie auszutauschen. Die Bezeichnung "RSS" hat sich aus einer Abkürzung entwickelt, die verschieden aufgelöst wird: Die drei Buchstaben stehen je nach Interpretation für RDF Site Summary, Rich Site Summary oder Really Simple Syndication. "Atom" ist der Name eines Versuchs, RSS neu zu formulieren – präziser und in engem Bezug zu anderen aktuellen Webtechniken.

Ein Dokumentformat ist eine wichtige Voraussetzung, um Inhalte zu syndizieren. Wer diese Dokumente im Web austauschen will, benötigt Kommunikationsprotokolle, und diese sollten bereits bei der Definition des Formats berücksichtigt werden. Allerdings müssen diese Protokolle nicht unbedingt RSS-spezifisch sein. Wie Sie sehen werden, verwendet RSS mit HTTP in der Regel das Standard-Kommunikationsprotokoll des WWW.

Vorteile eines standardisierten Syndikationsformats für Nutzer und Anbieter

Ein standardisiertes Syndikationsformat ermöglicht es, präzise Auskunft darüber zu beziehen, welche der über einen URI zugänglichen Informationsobjekte verändert wurden und zu welchem Zeitpunkt dies geschah. Ein Benutzer kann diese Information benutzen um zu entscheiden, welche der veränderten Teile eines Webangebots er sich ansehen will; er kann die neuen Informationen aber auch mit dem Feed selbst erhalten. Software kann die entsprechenden Elemente automatisch verarbeiten.

Den Anbietern von Inhalten und den Rezipienten bieten Feed-Formate wichtige Vorteile:

  • Bandbreitevorteil

    Ein wichtiger Vorteil eines Syndikationsformats kann darin bestehen, dass die übertragenen Daten weniger Bandbreite erfordern als die Originaldokumente. In der Praxis spielt dieser Vorteil aber nur eine untergeordnete Rolle, da heute viele Dokumente in Syndikationsformaten den kompletten Inhalt der beschriebenen Seite enthalten.
  • Eindeutige Semantik

    Wichtiger ist ein zweiter Vorteil: die einfache und eindeutige Semantik der Sprachmittel. Sie können mit dem Ziel definiert werden, über aktuelle Veränderungen einer Website zu informieren. Einem HTML-Dokument lässt sich nicht entnehmen, welche seiner h1-, h2- oder h3-Elemente die Überschriften aktueller Informationen enthalten und wo diese Meldungen enden. In einem Syndikationsdokument kann jede dieser Meldungen zu einem Informationsobjekt werden, das einen Titel und weitere Eigenschaften hat.
  • Zeitersparnis

    Mehr als zwanzig Websites am Tag regelmäßig zu besuchen, ist kaum jemandem zeitlich möglich. Ohne standardisiertes Austauschformat müsste ich die Informationen, die mir ein Aggregator oder Newsreader liefert, aktiv suchen, oder ich wäre auf Zwischenanbieter angewiesen. Die Syndikation verschafft mir einen einfachen Zugang zu sehr vielen Nachrichtenquellen. Ich brauche keine Instanz, sei es eine Software, ein Server oder eine Firma, zwischen dem Anbieter der Informationen und mir als ihrem Empfänger.

Ein standardisiertes Syndikationsformat macht den Nutzer also selbstständiger; er kann sich wesentlich besser dafür entscheiden, welche Nachrichten er wann bezieht. Ein Syndikationsformat vergrößert auf der anderen Seite die Reichweite des Produzenten der Nachrichten. Als Anbieter von Nachrichten ist man nicht darauf angewiesen, dass Interessenten auf der Website nachsehen, was es an Neuem gibt, sie können aktiv über alle Änderungen auf der Seite informiert werden.

RSS ist ein Beispiel für das End-to-end-Prinzip und unterscheidet sich damit nicht von vielen anderen erfolgreichen Internettechnologien. Durch RSS fällt eine Zwischen- oder Vermittlungsebene weg. Allerdings: RSS ist ein rein technisches Hilfsmittel; die Aufgabe der inhaltlichen Auswahl und Bewertung löst ein Newsreader nicht.

Anforderungen an ein Standardformat

Sie haben bereits an Beispielen gesehen, wozu Feed-Formate verwendet werden. Diese Formate erzielen den größten Teil ihrer Wirkung, weil sie sich als Standards durchgesetzt haben. Als Standard bieten sie Vorteile, die mit einem noch so guten Syndikationsformat allein nicht denkbar wären. Ein gemeinsames Format und standardisierte Publikationsprozesse erleichtern es, aktualisierte Informationen

  1. aufzufinden,
  2. darzustellen,
  3. auszutauschen und weiterzupublizieren.

Die Anforderungen an ein standardisiertes Feed-Format können auf zwei Ebenen beschrieben werden:

  • Welche Informationen muss ein RSS-Dokument transportieren? (funktionale Anforderungen)
  • Wie spielt es mit anderen Formaten und Protokollen zusammen? (formale Anforderungen)

Auf der ersten Ebene geht es um die Anwendungs- und Gebrauchssituationen. Diese funktionalen Anforderungen sind vielfältig: Der Benutzer will eine Übersicht über eine große Menge unterschiedlicher Informationen bewahren, der Informationsanbieter Informationen zu verschiedenen Themen und in verschiedenen Formaten einfach distribuieren und sein Publikum kontinuierlich mit aktuellen Nachrichten versorgen. Dabei müssen viele Plattformen und viele Typen von Inhalten berücksichtigt werden (z. B. Foto- und Videoblogs und der Transport von Daten für die automatische Weiterberarbeitung).

Formale Anforderungen müssen erfüllt werden, damit ein Feed-Format standardisiert werden kann. Die Chancen dafür, dass der Standard sich durchsetzt, sind dabei am größten, wenn er auf eingeführte Techniken zurückgreift und diese nur für seine spezifischen Zwecke ergänzt und modifiziert. Bei einem Format für das Teilen von Inhalten ist Standardisierung nicht nur ein "nice-to-have", sondern ein "must": Je weiter die technische Basis verbreitet ist, desto besser kann Syndikation funktionieren.

Als Standard kann nur eine Lösung verwendet werden, die leistungsfähig, abstrakt und einfach zugleich ist: leistungsfähig, weil sie sonst die gestellte Aufgabe nicht bewältigen könnte; abstrakt, damit sie auf unterschiedliche Situationen übertragen werden kann; einfach, damit sie von vielen Benutzern angewendet werden kann. Überdies muss sie sich in das "ökologische" System einfügen, innerhalb dessen sie benutzt wird – sie muss also zur Architektur und Infrastruktur des WWW passen.

Funktionale Anforderung: Auffinden aktualisierter Informationen

Zeitungsseiten wie "http://www.ftd.de", Newsseiten wie "http://www.slashdot.org", Portale wie "http://www.yahoo.com" und Weblogs wie "http://www.scriptingnews.com" werden laufend, oft stündlich aktualisiert. Andere Betreiber versehen ihre Sites in einem langsameren Rhythmus mit neuen Informationen. Wenn klar erkennbar ist, welche Komponenten einer Website aktualisiert worden sind, kann eine Software nach diesen spezifischen Elementen suchen.

Zwar erlaubt auch das HTTP-Protokoll festzustellen, ob oder wann ein Webdokument aktualisiert wurde; aber via HTTP kann ein Server einen Client nur über Veränderungen des Dokuments als Ganzes, nicht über einzelne Komponenten, die erneuert oder modifiziert wurden, informieren. Der Client kann durch die Informationen im HTTP-Header feststellen, dass die Homepage einer Tageszeitung verändert wurde, er kann aber nicht erkennen, welche Meldungen und Artikel hinzugekommen sind.

Funktionale Anforderung: Darstellung von Informationen

In erster Linie wird RSS verarbeitet, um RSS-Dokumente zu präsentieren, sie also für Menschen lesbar zu machen. Die Informationen müssen so strukturiert sein, dass sie leicht dargestellt werden können und einen Überblick über ihre Inhalte bieten. Ohne Konventionen zur einheitlichen Darstellung der aktualisierten Webressourcen muss der Benutzer die Dokumente einzeln ansurfen und sich in ihrer internen Navigation zurechtfinden.

Zwar ist auch HTML ein Standard, um Informationen einheitlich darzustellen. HTML besitzt aber keine Semantik für Nachrichten oder nachrichtenartige Informationen, weil es als Sprache für Informationen jeder Art als eine Art kleinster gemeinsamer Nenner für die Kodierung von Webdokumenten entwickelt wurde.

Besitzt man dagegen umgekehrt standardisierte Informationen darüber, was an einer Seite neu ist, wird Software möglich, die viele Quellen auf Neuigkeiten hin absucht und die neuen Informationen zusammen darstellt. Dabei ist es offen, wie viel der aktualisierten Information in einem RSS-Dokument enthalten ist und wie viel nur in einer Quelle, auf die dieses Dokument verweist.

Funktionale Anforderung: Austausch und Weiterpublikation

Eigentlich wird es überhaupt erst interessant, Informationen über die Veränderungen auf einer Website zu publizieren, wenn diese Informationen auch auf anderen Sites erscheinen können.

Eine Webseite kann dann andere Webseiten abonnieren und ihre Inhalte so integrieren wie genetisches Material aus einer Zelle oder einem Virus in die DNA-Stränge anderer Zellen eingefügt werden kann. Ohne einen Standard für Webnachrichten sind solche Austauschoperationen aufwändig und unstabil. Man muss die Struktur des Inhalts, den man integrieren will, genau kennen und dann in das Format der eigenen Online-Publikation umformen. Die Skripte, die für diese Integration benötigt werden, müssen bei jeder Veränderung der Struktur der Quelle umgeschrieben werden. Ein Standard ermöglicht es dagegen, Material beliebiger Herkunft zu verwenden – wenn man von den juristischen Problemen einmal absieht.

Zum Publizieren und Republizieren gehört auch das Kommentieren, Zitieren und Ändern von Informationen. Es gehörte zu den Absichten der ersten Entwickler des Webs, ein Medium zu schaffen, dessen Benutzer ebenso publizieren und schreiben wie sie rezipieren und lesen. Dieses »Writable Web« benötigt Regeln für das Zusammenführen und Neupublizieren, wenn es weltweit und für jeden zugänglich funktionieren soll.

Funktionale Anforderung: Publizieren und Edieren von Informationen

Feed-Formate können auch benutzt werden, um Dokumente überhaupt erst zu publizieren bzw. zu editieren. In diesem Fall gelangt das Dokument in einem Feed-Format auf einen Webserver. Publikationsprotokolle bzw. APIs (Application Programming Interfaces) regeln, wie die Daten auf dem Server zu interpretieren sind. Auch hier spielt die Kombination von RSS mit anderen XML-Formaten und mit Webprotokollen eine wichtige Rolle. Einerseits gehören HTML-Fragmente vielfach zum Inhalt der Dokumente, die publiziert werden sollen. Andererseits werden zur Publikation Techniken wie HTTP, XML-RPC und SOAP verwendet.

Funktionale Anforderung: Extrahieren und Weiterverarbeiten von Informationen

Ein vierter Verarbeitungstyp ist das Extrahieren von Informationen für eine maschinelle Weiterverarbeitung. Vor allem hier sind die Beziehungen zwischen RSS und dem Resource Description Format relevant. So können Zeitschriftenverlage innerhalb ihrer Newsfeeds maschinenlesbar die bibliographischen Daten aller Artikel angeben. Ein Feed mit seismographischen Daten kann für Katastrophenwarnungen ausgewertet werden.

Funktionale Anforderung: Erweiterbarkeit

Die bisherige Entwicklung der Feed-Formate und der Anwendungen, die auf ihnen basieren, spricht dafür, dass sich noch zahlreiche weitere Aufgaben für Feed-Formate stellen werden. Dabei ist es oft besonders wichtig, Daten in diesen Formaten mit anderen Daten zu kombinieren. Deshalb benötigen Feed-Formate einen standardisierten Erweiterungsmechanismus. Ein solcher Mechanismus stellt sicher, dass neue Anwendungen entwickelt werden können, ohne dass die vorhandenen Formate und Anwendungen verändert werden müssen oder gar obsolet werden.

Formale Anforderung: Integration in die Architektur des Web

Zu diesen Anforderungen, die sich aus den Aufgaben des Formats ableiten lassen, kommen weitere Anforderungen, die sich aus der Umgebung ergeben, in der es vor allem verwendet wird: Newfeeds sind Dokumente im World Wide Web, die in dieser spezifischen Umgebung funktionieren müssen. Das bedeutet:

  • Feed-Formate müssen nach den Regeln anderer universaler Webtechniken funktionieren; sie müssen einfach und robust sein.
  • In Newsfeeds werden Inhalte publiziert. Ihre Formate müssen mit anderen Formaten für Webinhalte zusammen funktionieren. Die Beziehungen zu diesen Formaten müssen deshalb festgelegt werden. Diese Anforderung betrifft vor allem die Syntax von Feed-Dokumenten bzw. von Dokumenten, in denen Feed-Formate zusammen mit anderen Vokabularen verwendet werden. So kommt in vielen Newsfeeds auch HTML-Markup vor. Ein Anspruch an die Spezifikation eines Feed-Formats ist es festzulegen, in welchem Verhältnis diese beiden Vokabulare stehen, ob eine HTML-Passage im Inhalt eines Feed-Dokuments also auch ein logischer Bestandteil des Dokuments ist (zum selben Dokumentbaum gehört), oder ob sie lediglich zitiert wird.
  • Ein Newsfeed enthält Informationen über andere Informationen oder Metadaten. Vielfach werden Feed-Formate sogar als Metadatenformate verstanden.
  • Feed-Formate gehören zu den Publikationstechniken in der Umgebung des WWW. Sie müssen daher auf die im Web üblichen Verfahren zum Transport und zur Publikation von Botschaften Rücksicht nehmen – indem sie entweder auf sie zurückgreifen oder spezifizieren, wie und warum sie von ihnen abweichen. Diese Anforderung betrifft mehr die Verwendung der Feed-Formate als die Dokumentsruktur; ohne sie lassen sich aber Syntax und Semantik der Dokumente nicht festlegen.

   

<< zurück vor >>

 

 

 

Tipp der data2type-Redaktion:
Zum Thema Newsfeeds mit RSS und Atom bieten wir auch folgende Schulungen zur Vertiefung und professionellen Fortbildung an: