翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# カスタムドキュメントをクエリするための生成 AI オプション
<a name="options"></a>

多くの場合、組織には構造化データと非構造化データのさまざまなソースがあります。このガイドでは、生成 AI を使用して非構造化データから質問に回答する方法に焦点を当てます。

組織内の非構造化データは、さまざまなソースから取得できます。PDF PDFs 、テキストファイル、内部 Wiki、技術文書、公開ウェブサイト、ナレッジベースなどです。非構造化データに関する質問に回答できる基盤モデルが必要な場合は、次のオプションを使用できます。
+ カスタムドキュメントやその他のトレーニングデータを使用して新しい基盤モデルをトレーニングする
+ カスタムドキュメントのデータを使用して既存の基盤モデルを微調整する
+ コンテキスト内学習を使用して、質問をするときに基盤モデルにドキュメントを渡す
+ 取得拡張生成 (RAG) アプローチを使用する

カスタムデータを含む新しい基盤モデルをゼロからトレーニングすることは、野心的な取り組みです。[https://www.bloomberg.com/company/press/bloomberggpt-50-billion-parameter-llm-tuned-finance/](https://www.bloomberg.com/company/press/bloomberggpt-50-billion-parameter-llm-tuned-finance/) モデルなど、いくつかの企業が成功Bloombergしています。もう 1 つの例は、 によるマルチモーダル[https://www.lgresearch.ai/ourwork/research?tab=PF](https://www.lgresearch.ai/ourwork/research?tab=PF)モデルです。このモデルはLG AI Research、6,000 億個のアートワークと 2 億 5,000 万個の高解像度イメージをテキストとともに使用してトレーニングされました。[AI のコスト: 基盤モデルを構築または購入すべき (](https://www.linkedin.com/pulse/cost-ai-should-you-build-buy-your-foundation-model-ritesh-vajariya/)LinkedIn) によると、トレーニングにかかるMetaLlama 2コストは約 48 0 万 USD です。ゼロからモデルをトレーニングするための主な前提条件は 2 つあります。リソースへのアクセス (財務、技術、時間) と明確な投資収益率です。これが適していないと思われる場合、次のオプションは既存の基盤モデルを微調整することです。

既存のモデルを微調整するには、Amazon Titan、Mistral、Llama モデルなどのモデルを取得し、そのモデルをカスタムデータに適応させる必要があります。ファインチューニングにはさまざまな手法があり、そのほとんどはモデル内のすべてのパラメータを変更するのではなく、少数のパラメータのみを変更するものです。これは、*パラメータ効率の高い微調整*と呼ばれます。ファインチューニングには主に 2 つの方法があります。
+ *教師ありファインチューニング*では、ラベル付きデータが使用され、新しい種類のタスク用にモデルをトレーニングするのに役立ちます。たとえば、PDF フォームに基づいてレポートを生成する場合は、十分な例を提供することで、その方法をモデルに教える必要があります。
+ *教師なしファインチューニング*はタスクに依存しず、基盤モデルを独自のデータに適応させます。ドキュメントのコンテキストを理解するようにモデルをトレーニングします。次に、ファインチューニングされたモデルは、よりカスタムなスタイルを使用してレポートなどのコンテンツを作成します。

ただし、ファインチューニングは、質疑応答のユースケースには適していない場合があります。詳細については、このガイドの[「RAG とファインチューニングの比較](rag-vs-fine-tuning.md)」を参照してください。

質問すると、基盤モデルをドキュメントに渡し、モデルのコンテキスト内学習を使用してドキュメントから回答を返すことができます。このオプションは、1 つのドキュメントのアドホッククエリに適しています。ただし、このソリューションは、複数のドキュメントのクエリや、Microsoft SharePoint や Atlassian Confluence などのシステムやアプリケーションのクエリには適していません。

最後のオプションは、RAG を使用することです。RAG では、基盤モデルはレスポンスを生成する前にカスタムドキュメントを参照します。RAG は、モデルの機能を組織の内部ナレッジベースに拡張します。モデルを再トレーニングする必要はありません。これは、モデル出力を改善して、さまざまなコンテキストで関連性、正確性、有用性を維持するための費用対効果の高いアプローチです。

**Topics**
+ [取得拡張生成について](what-is-rag.md)
+ [取得拡張生成と微調整の比較](rag-vs-fine-tuning.md)
+ [取得拡張生成のユースケース](rag-use-cases.md)