View a markdown version of this page

RAG アプリケーションのドキュメントのベストプラクティス - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

RAG アプリケーションのドキュメントのベストプラクティス

取得拡張生成 (RAG) アプリケーションを正常に開発するには、パフォーマンスを最適化するためにさまざまなドキュメント関連の要素を慎重に検討する必要があります。このセクションのベストプラクティスは、多くの組織リーダーによる RAG システムの構築経験に基づいて厳選されています。以下は、RAG アプリケーションの有効性を高めるためのドキュメントの主要なベストプラクティスです。

  • 見出しとサブ見出しを適切に使用する – 見出しとサブ見出しを明確にしてコンテンツを整理すると、読みやすくなり、RAG モデルがドキュメントの構造を理解するのに役立ちます。この方法により、モデルはドキュメントをより適切にナビゲートし、ドキュメントから情報を抽出できるため、生成されたレスポンスの品質が向上します。

  • 番号付けが順番であることを確認する – 番号付きリストを使用する場合は、混乱を避けるために適切な番号付けを維持することが重要です。各リスト項目には、番号をスキップせずに順番に番号が付けられていることを確認します。これにより、コンテンツの明確さと一貫性を維持できます。

  • リスト項目間の遷移の追加 – 箇条書きリストまたは番号付きリスト内の項目間の遷移を提供することで、コンテンツを通じて LLM をガイドするのに役立ちます。たとえば、「ステップ 2 を完了したら、...」などのフレーズを使用してアイデアを結び付け、情報の流れを改善できます。

  • テーブルの置き換え – テーブルの使用は避けてください。この情報は、複数レベルの箇条書きリストまたはフラットレベルの構文でフォーマットします。フラットレベルの構文は、ネストされたレベルの下位配置なしで、要素または項目を同じ階層レベルで配置します。これらの構造LLMs が情報をダイジェストするのに役立ちます。インデックス付きドキュメントのほとんどは左から右に読み取られるため、フラットレベルの構文では、追加のディメンションを参照することなく、より一貫した情報に従うことができます。この形式は、構造化されたわかりやすい方法で情報を表示するため、RAG アプリケーションにより適しています。

  • 効率を高めるためにグラフィカル情報を前処理する – マルチモーダル LLMs はイメージとテキストの両方を取り込むことができます。画像の解像度を下げ、冗長な画像を削除し、グラフィカル要素の内容をテキスト形式で記述します。これらの測定により、意味のあるコンテキストが改善され、トークンが不必要に消費されるのを防ぎ、RAG モデルのアクセシビリティが向上します。

  • 一般的なクエリにセッションスターターを追加する – 「ソフトウェアの注文方法」などの一般的な質問やタスクに対処する場合は、リーダーをプロセスに移行するセッションスターターを追加します。たとえば、「ソフトウェアを注文する場合は、以下のステップに従います...」を追加できます。これにより、高いセマンティックマッチングが作成され、LLM がまとまりのあるレスポンスを構築するのに役立ちます。

  • 各セクションに要約を追加する – 各見出しまたはサブ見出し の後に、そのセクションの内容の簡潔で簡潔な要約を追加します。これにより、セマンティックカバレッジが増加し、キーポイントが強化される可能性があります。これにより、埋め込みスペース内の類似度検索の精度が向上し、RAG アプリケーションのパフォーマンスが向上します。これは、ドキュメントが LLM と人間の両方の消費を目的としている場合、またはテーブルとグラフィカルな要素が必要な場合に特に役立ちます。

  • 曖昧さの排除 — ドキュメントは簡潔で的を絞ったものにする必要があります。LLMs取得した抜粋に基づいてレスポンスを生成するため、曖昧さを解消することで、モデルが明確で関連情報を使用するのに役立ちます。これにより、より正確で有益なレスポンスが得られます。

  • 略語の定義とコンテキストの設定 – LLMs は大量のインターネットデータでトレーニングされており、ほとんどの場合、企業の内部ドキュメントのコンテキストはありません。したがって、コンテキストの設定、略語の定義、会社固有の用語の回避または定義は、LLM がエンタープライズデータを理解するのに役立ちます。これにより、LLM はより正確に質問に回答し、ハルシネーションを防ぐことができます。

  • 大きなドキュメントを小さなドキュメントに再構築してタグ付けとインデックス作成を効率化 複数のサブトピックを含む大きなドキュメントのインデックス作成を回避します。大きなドキュメントを、明確なタイトルを持つより小さな自己完結型ドキュメントに分割することを検討してください。これにより、インデックス作成とタグ付けが向上します。