Bewährte Methoden der Dokumentation für RAG-Anwendungen

Die Entwicklung einer erfolgreichen RAG-Anwendung (Retrieval-Augmented Generation) erfordert die sorgfältige Berücksichtigung verschiedener dokumentbezogener Faktoren, um die Leistung zu optimieren. Die Best Practices in diesem Abschnitt basieren auf den Erfahrungen vieler Unternehmensleiter beim Aufbau von RAG-Systemen. Im Folgenden finden Sie einige wichtige bewährte Methoden für Dokumente, mit denen Sie die Effektivität Ihrer RAG-Anwendung verbessern können:

Verwenden Sie Überschriften und Zwischenüberschriften richtig — Die Organisation Ihrer Inhalte mit klaren Überschriften und Zwischenüberschriften verbessert die Lesbarkeit und hilft RAG-Modellen, die Struktur Ihrer Dokumente zu verstehen. Diese Vorgehensweise ermöglicht es den Modellen, besser zu navigieren und Informationen aus den Dokumenten zu extrahieren, was die Qualität der generierten Antworten verbessert.
Stellen Sie sicher, dass die Nummerierung fortlaufend ist — Bei der Verwendung nummerierter Listen ist es wichtig, die korrekte Nummerierung beizubehalten, um Verwechslungen zu vermeiden. Stellen Sie sicher, dass jedes Listenelement fortlaufend nummeriert ist, ohne dass Zahlen übersprungen werden. Dies trägt dazu bei, die Klarheit und Kohärenz Ihrer Inhalte zu wahren.
Fügen Sie Übergänge zwischen Listenelementen hinzu — Die Bereitstellung von Übergängen zwischen Elementen in einer Liste mit Aufzählungszeichen oder Nummern hilft dem LLM, sich durch den Inhalt zu führen. Sie können beispielsweise Formulierungen wie „Nachdem Sie Schritt 2 abgeschlossen haben, tun Sie...“ verwenden, um Ideen miteinander zu verknüpfen und den Informationsfluss zu verbessern.
Tabellen ersetzen — Vermeiden Sie die Verwendung von Tabellen. Formatieren Sie diese Informationen in Aufzählungen mit mehreren Ebenen oder in einer einfachen Syntax. Bei der Syntax auf flacher Ebene werden Elemente oder Elemente auf derselben Hierarchieebene ohne verschachtelte Unterordnungsebenen angeordnet. Diese Strukturen helfen dabei LLMs , die Informationen zu verdauen. Da die meisten indizierten Dokumente von links nach rechts gelesen werden, ermöglicht die Flat-Level-Syntax, dass Informationen kohärenter folgen können, ohne dass auf eine zusätzliche Dimension verwiesen werden muss. Dieses Format eignet sich besser für RAG-Anwendungen, da es Informationen strukturiert und leicht verdaulich darstellt.
Aus Effizienzgründen grafische Informationen vorab verarbeiten — Multimodal LLMs kann sowohl Bild als auch Text aufnehmen. Reduzieren Sie die Auflösung von Bildern, entfernen Sie überflüssige Bilder und beschreiben Sie den Inhalt grafischer Elemente im Textformat. Diese Maßnahmen verbessern den aussagekräftigen Kontext, vermeiden den unnötigen Verbrauch von Tokens und verbessern die Zugänglichkeit für RAG-Modelle.
Fügen Sie Sitzungsstarter für häufig gestellte Fragen hinzu — bei der Beantwortung häufiger Fragen oder Aufgaben wie „Wie bestelle ich Software?“ , fügen Sie einen Sitzungsstarter hinzu, der den Leser in den Prozess überführt. Sie könnten zum Beispiel hinzufügen: „Wenn Sie Software bestellen möchten, gehen Sie wie folgt vor...“. Dies trägt dazu bei, einen hohen semantischen Abgleich zu erreichen, was dem LLM hilft, eine kohärente Antwort zu erstellen.
Fügen Sie jedem Abschnitt eine Zusammenfassung hinzu — Fügen Sie nach jeder Überschrift oder Unterüberschrift eine kurze und präzise Zusammenfassung des Inhalts in diesem Abschnitt hinzu. Dies kann die semantische Abdeckung erhöhen und wichtige Punkte unterstreichen. Dies verbessert die Genauigkeit der Ähnlichkeitssuche innerhalb des Einbettungsbereichs und verbessert somit die Leistung der RAG-Anwendung. Dies ist besonders hilfreich, wenn das Dokument sowohl für LLM als auch für den menschlichen Gebrauch bestimmt ist oder wenn tabellarische und grafische Elemente erforderlich sind.
Begriffsklärung — Dokumente sollten präzise und zielgerichtet sein. LLMs Generieren Sie Antworten auf der Grundlage der abgerufenen Auszüge, sodass die Begriffsklärung dem Modell hilft, klare und relevante Informationen zu verwenden. Dies führt zu genaueren und aussagekräftigeren Antworten.
Definieren Sie Abkürzungen und legen Sie den Kontext fest — Sie LLMs sind mit großen Mengen an Internetdaten vertraut und haben in den meisten Fällen nicht den Kontext interner Dokumente eines Unternehmens. Daher hilft es dem LLM, Ihre Unternehmensdaten zu verstehen, den Kontext festzulegen, Abkürzungen zu definieren und unternehmensspezifische Terminologie zu vermeiden oder zu definieren. Dies hilft dem LLM, Fragen genauer zu beantworten, und kann Halluzinationen vorbeugen.
Strukturieren Sie große Dokumente in kleinere Dokumente für effizientes Taggen und Indexieren — Vermeiden Sie die Indexierung eines großen Dokuments, das mehrere Unterthemen enthält. Erwägen Sie, das große Dokument in kleinere, eigenständige Dokumente mit eindeutigen Titeln aufzuteilen. Dadurch werden Indexierung und Tagging verbessert.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Herausforderungen bei Quelldaten

Häufig gestellte Fragen