Herausforderungen bei Quelldaten, die sich auf RAG-Anwendungen auswirken

Eine der größten Herausforderungen bei der Entwicklung einer optimalen RAG-Anwendung (Retrieval-Augmented Generation) liegt in der Art der verwendeten Rohdaten oder Dokumente. Häufig verwenden Unternehmen bestehende Dokumente, die als menschliche Referenz erstellt wurden. Diese Dokumente enthalten häufig Hyperlinks und Screenshots mit Bildern, um das Verständnis zu fördern. Diese Elemente behindern jedoch den semantischen Abruf aufgrund von Token-Beschränkungen für Auszüge. Dies führt zu einer schlechten Leistung des Retrievers.

Im Folgenden sind die häufigsten Probleme mit Rohdokumenten aufgeführt, die bei einer optimalen RAG-Anwendung auftreten:

Fehlende strukturierte Formatierung und Metadaten — In Rohdokumenten können klare Abschnittsüberschriften, Zwischenüberschriften oder Metadaten fehlen. Dies macht es schwierig, relevante Informationen zu identifizieren und zu extrahieren. Ein langes Dokument ohne klare Überschriften kann es beispielsweise schwierig machen, den Kontext bestimmter Informationen zu bestimmen.
Informelle und inkonsistente Sprache — Rohdokumente enthalten oft eine informelle Sprache oder eine inkonsistente Terminologie. Dies kann RAG-Modelle verwirren. Beispielsweise können Abkürzungen, die im Dokument nicht definiert sind oder dem LLM bereits bekannt sind, überall in einem Dokument verwendet werden.
Ausführlichkeit und Redundanz — Rohdokumente können ausführlich sein und unnötige oder redundante Informationen enthalten. Dies kann die RAG-Modelle überfordern und zu weniger präzisen und relevanteren Antworten führen. Beispiele hierfür sind ein Dokument, das dieselben Informationen mehrfach wiederholt, oder mehrere Dokumente, die ähnliche oder widersprüchliche Informationen enthalten.
Mehrdeutige Begriffe und Ausdrücke — Rohdokumente können mehrdeutige Begriffe oder Ausdrücke enthalten, die auf unterschiedliche Weise interpretiert werden können. Diese Mehrdeutigkeit kann zu Fehlinterpretationen durch RAG-Modelle und zu ungenauen Antworten führen. Beispielsweise kann ein Dokument, das einen Begriff mit mehreren Bedeutungen verwendet, zu einer Antwort führen, die nicht der beabsichtigten Bedeutung entspricht.
Einfügen von Grafik- und Hyperlink-Elementen — Rohdokumente, die Grafiken und Hyperlink-Informationen enthalten, eignen sich gut für den menschlichen Gebrauch. Diese Elemente können jedoch das Limit für Abruf-Tokens überschreiten. Das Ergebnis ist, dass Auszüge möglicherweise unvollständig sind. Beispielsweise URLs werden Grafiken und Hyperlinks als Teil des Abrufs zurückgegeben, wodurch die Abruf-Token verbraucht werden, und wichtige Informationen aus nachfolgenden Absätzen fehlen.
Mangelndes domänenspezifisches Wissen oder Kontext — In Rohdokumenten fehlt möglicherweise das für eine korrekte Generierung erforderliche domänenspezifische Wissen oder der Kontext. Dies kann die Fähigkeit von RAG-Modellen einschränken, relevante und genaue Antworten zu generieren. Ein Beispiel ist ein Dokument, das auf spezielle Konzepte verweist, ohne Kontext bereitzustellen. Dies kann zu Antworten führen, die in der angegebenen Domäne nicht aussagekräftig sind.

Diese Liste ist zwar nicht vollständig, bietet Unternehmen jedoch einen Ausgangspunkt, um darüber nachzudenken, was nicht funktioniert und warum. Dokumente können mit einer oder mehreren dieser Herausforderungen konfrontiert sein. Der Schlüssel zur Optimierung einer RAG-Anwendung besteht darin, eine Reihe von Dokumenten zu verwenden, die den bewährten Schreibmethoden entsprechen, um den Abruf zu optimieren.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

LLMs und RAG verstehen

Bewährte Methoden