Studienreihe zur Optimierung von RAG-Systemen
Diese Studienreihe von Manuel Montero Pineda (Geschäftsführer von data2type), kurz RAG-Studienreihe, umfasst vier aufeinander aufbauende Untersuchungen zur idealen Datenverarbeitung für RAG-Systeme (Retrieval-Augmented Generation). Ziel ist es, herauszufinden, wie Daten optimal strukturiert und verwaltet werden müssen, um präzise, konsistente und effiziente Antworten in RAG-Systemen zu gewährleisten.
Erste Studie: Strukturierte vs. unstrukturierte Daten
Die Ergebnisse der ersten Studie mit dem Titel „Strukturierte vs. unstrukturierte Daten für RAG-Training: ein Vergleich“ verdeutlichen die Bedeutung der Datenstrukturierung für das Training eines Retrieval-Augmented-Generation-(RAG-)Systems. Die Überlegenheit strukturierter Daten gegenüber unstrukturierten Formaten, wie einem PDF, zeigt, dass die Qualität und Struktur der Daten einen erheblichen Einfluss auf die Leistung solcher Systeme haben. Besonders hervorzuheben ist, dass ein speziell angepasstes Markdown-Format, das eine optimale Strukturierung bietet, die besten Ergebnisse lieferte. Dies unterstreicht die Notwendigkeit, Daten gezielt für RAG-Systeme aufzubereiten, um deren Effektivität zu maximieren. Die Studie liefert somit eine klare Grundlage für weitere Untersuchungen und betont, wie entscheidend die Datenaufbereitung für den Erfolg solcher Systeme ist.
Zweite Studie: Optimale Aufbereitung strukturierter Daten
Eine weiterführende Studie mit dem Titel „Strukturierte Daten und intelligente Chunking-Strategien für RAG-Systeme“ untersucht, wie strukturierte Daten ideal aufbereitet werden sollten, damit sie von verschiedenen RAG-Systemen bestmöglich verarbeitet werden. Ziel ist es, Formate zu identifizieren, die höchste Präzision und Konsistenz der Antworten ermöglichen.
Dazu gehört z. B. die Anpassung der Token-Anzahl an das verwendete LLM (Large Language Model) oder die Strukturierung der Daten zur besseren Zitierfähigkeit. Manche Formate erlauben die Rückgabe ganzer Dokumentabschnitte anstelle einzelner Stellen. Andere sind speziell für wissenschaftliche Texte mit Fußnoten, Literaturangaben oder semantischer Strukturierung optimiert.
Besonders wichtig sind dabei Embeddings – die letzte Verarbeitungsstufe, in der auch Metadaten eine zentrale Rolle spielen. Durch die geschickte Nutzung von Metadaten während der Embedding-Phase kann die Qualität der Such- und Antwortprozesse erheblich verbessert werden. Die Studie erforscht, wie Metadaten und Embeddings optimal kombiniert werden können, um möglichst präzise und relevante Ergebnisse aus dem RAG-System zu erhalten.
Dritte Studie: Datenumwandlung aus unstrukturierten Daten
In der dritten Studie der Reihe mit dem Titel „Automatisierte Chunks und XML: Vom PDF zum flexiblen RAG-System" wird untersucht, wie mit Hilfe der Octopus-Plattform aus beliebigen Ursprungsformaten, wie PDF, DOCX oder EPUB, eine strukturierte, Chunk-neutrale und zukunftssichere Datenbasis generiert werden kann. Während herkömmliche Ansätze oft mit Informationsverlust oder inkonsistenter Struktur einhergehen, kann Octopus beliebige PDFs in XML umwandeln. Darüber hinaus zeichnet sich Octopus durch die Fähigkeit aus, viele gängige Formate, wie Word, Excel, HTML oder Präsentationsformate, in strukturierte XML-Formate zu transformieren. Diese Umwandlung ermöglicht eine standardisierte und semantisch angereicherte Darstellung der Daten, die für weiterführende Anwendungen, wie Crossmedia-Publishing, die Integration in Daten-Management-Systeme oder den Einsatz in KI-gestützten Prozessen wie RAGs, genutzt werden kann.
Ziel ist die Schaffung eines durchgängigen Workflows, der ohne manuelle Eingriffe aus Layout-orientierten Dokumenten semantisch strukturierte Inhalte extrahiert, in einem neutralen Zwischenformat speichert und daraus flexibel auf Abruf Chunks generieren kann – angepasst an verschiedene Modelle, Medien oder Anwendungsszenarien.
>> zu Teil 3 der RAG-Studienreihe: „Automatisierte Chunks und XML: Vom PDF zum flexiblen RAG-System"
Vierte Studie: Die optimale Datenhaltung
Die vierte und abschließende Studie der Reihe trägt den Titel „Content Delivery Services (CDS) und RAG“ und beschäftigt sich mit der optimalen Datenhaltung für RAG-Systeme.
Ein zentraler Aspekt für RAG-Systeme ist die optimale Strukturierung von Datenpaketen, um deren effiziente Auffindbarkeit und Nutzung zu gewährleisten. Hierbei kommen Standards wie iiRDS (Intelligent Information Request and Delivery Standard) sowie Ansätze aus dem Semantic Web und RDF (Resource Description Framework) zum Einsatz. Das Ziel besteht darin, Mechanismen zu entwickeln, die eine effektive Verwaltung und Wiederauffindbarkeit strukturierter Daten sicherstellen.
Darüber hinaus widmet sich der vierte Teil der RAG-Studienreihe der Implementierung eines Content Delivery Services (CDS), der als intelligente Vermittlungsschicht zwischen den strukturierten Formaten der RAG-Pipeline (z. B. ChunkML, RDF) und den nachgelagerten Komponenten wie LLMs, Embedding-Systemen oder Chatbots fungiert.
Durch einen CDS können RAG-Systeme auf eine zentrale, standardisierte Datenquelle zugreifen, die kontinuierlich aktualisiert wird. Dies verbessert die Skalierbarkeit, Konsistenz und Wartung der Systeme erheblich und ermöglicht eine effiziente Verwaltung großer Datenmengen – ein entscheidender Faktor für Verlage und Unternehmen mit vielen parallellaufenden RAG-Modellen.
Die Studie wird untersuchen, wie ein solcher CDS technisch umgesetzt, in bestehende XML-Hub-Systeme integriert und in verschiedenen Anwendungsszenarien – etwa Fachportale, Publikationssysteme oder Multi-Agent-Umgebungen – produktiv eingesetzt werden kann.
>> Coming soon…