RAG アプリケーションに影響するソースデータの課題

最適な検索拡張生成 (RAG) アプリケーションの開発における重要な課題の 1 つは、使用される未加工のデータまたはドキュメントの性質にあります。多くの場合、企業はヒューマンリファレンス用に作成された既存のドキュメントを使用します。これらのドキュメントには、理解を促進するためのハイパーリンクと画像のスクリーンショットが含まれていることがよくあります。ただし、これらの要素は、抜粋トークンの制限によりセマンティック取得を妨げます。これにより、リトリーバーのパフォーマンスが低下します。

最適な RAG アプリケーションにおける最も一般的な raw ドキュメントの課題は次のとおりです。

構造化フォーマットとメタデータの欠如 – 未加工のドキュメントには、明確なセクション見出し、サブ見出し、メタデータがない可能性があります。これにより、関連情報の特定と抽出が困難になります。例えば、見出しが明確でない長いドキュメントでは、特定の情報のコンテキストを判断するのが難しい場合があります。
非公式で一貫性のない言語 – 未加工のドキュメントには、多くの場合、非公式な言語や一貫性のない用語が含まれています。これにより、RAG モデルが混乱する可能性があります。例えば、ドキュメントで定義されていない略語や LLM で既に知られている略語は、ドキュメント全体で使用される場合があります。
冗長性と冗長性 – 未加工のドキュメントは冗長であり、不必要または冗長な情報が含まれている場合があります。これにより、RAG モデルが圧倒され、簡潔さが低くなり、関連する応答が生じる可能性があります。例としては、同じ情報を複数回繰り返すドキュメントや、類似または矛盾する情報を含む複数のドキュメントなどがあります。
あいまいな用語とフレーズ – 未加工のドキュメントにはあいまいな用語やフレーズが含まれている場合があり、これらは複数の方法で解釈される可能性があります。このあいまいさは、RAG モデルによる誤解や不正確なレスポンスにつながる可能性があります。たとえば、複数の意味を持つ用語を使用するドキュメントでは、意図した意味と一致しないレスポンスが発生する可能性があります。
グラフィック要素とハイパーリンク要素の挿入 – グラフィック情報とハイパーリンク情報を含む未加工のドキュメントは、人間が使用するのに適しています。ただし、これらの要素は取得トークンの制限を消費する可能性があります。その結果、抜粋が不完全である可能性があります。たとえば、グラフィック URL とハイパーリンク URLs は取得トークンを使用する取得の一部として返され、後続の段落のキー情報が欠落しています。
ドメイン固有の知識やコンテキストの欠如 – Raw ドキュメントには、正確な生成に必要なドメイン固有の知識やコンテキストがない可能性があります。これにより、RAG モデルが関連性の高い正確なレスポンスを生成する能力が制限される可能性があります。例として、コンテキストを指定せずに特殊な概念を参照するドキュメントがあります。これにより、特定のドメインで意味のないレスポンスが発生する可能性があります。

このリストは包括的ではありませんが、企業が何が機能していないのか、なぜ機能しないのかを考えるための出発点となります。ドキュメントには、これらの課題が 1 つ以上ある場合があります。RAG アプリケーションを最適化するための鍵は、取得を最適化するベストプラクティスの記述に準拠した一連のドキュメントを使用することです。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

LLMsと RAG について

ベストプラクティス