翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
ナレッジベースを使用して推論モデルのレスポンス生成を設定する
特定の基盤モデルでは、モデル推論を実行でき、より大きく複雑なタスクが、より小さくシンプルなステップに分割されます。このプロセスは、多くの場合、思考の連鎖 (CoT) 推論と呼ばれ、モデルが応答する前に考える機会を与えることで、モデルの精度を高めることができます。モデル推論は、マルチステップ分析、数値問題、複雑な推論タスクなどにおいて最も有用です。詳細については、「モデル推論を使用してモデルのレスポンスを強化する」を参照してください。
注記
このページでは、Amazon Bedrock ナレッジベース専用の推論設定を使用する方法について説明します。InvokeModel API を使用して直接モデル呼び出しの推論を設定する方法については、「モデル推論を使用してモデルのレスポンスを強化する」を参照してください。
モデル推論を有効にすると、精度が向上し、引用結果が改善されますが、レイテンシーが増加する可能性があります。以下は、データソースをクエリし、Amazon Bedrock ナレッジベースで推論モデルを使用してレスポンスを生成する際の考慮事項です。
推論モデル
モデル推論は、次のモデルで使用できます。
| 基盤モデル | モデル ID | トークンの数 | 推論設定 |
|---|---|---|---|
| Anthropic Claude Opus 4 | anthropic.claude-opus-4-20250514-v1:0 | このモデルには 32,768 個のトークンがあり、出力トークンと推論トークンの両方が含まれます。 | このモデルでは、設定可能なトークン予算を使用して、推論を有効または無効にすることができます。デフォルトでは、推論は無効になっています。 |
| Anthropic Claude Sonnet 4 | anthropic.claude-sonnet-4-20250514-v1:0 | このモデルには 65,536 個のトークンがあり、出力トークンと推論トークンの両方が含まれます。 | このモデルでは、設定可能なトークン予算を使用して、推論を有効または無効にすることができます。デフォルトでは、推論は無効になっています。 |
| Anthropic Claude 3.7 Sonnet | anthropic.claude-3-7-sonnet-20250219-v1:0 | このモデルには 65,536 個のトークンがあり、出力トークンと推論トークンの両方が含まれます。 | このモデルでは、設定可能なトークン予算を使用して、推論を有効または無効にすることができます。デフォルトでは、推論は無効になっています。 |
| DeepSeek DeepSeek-R1 | deepseek.r1-v1:0 | このモデルには 8,192 個のトークンがあり、出力トークンと推論トークンの両方が含まれます。思考トークンの数は設定できません。出力トークンの最大数は 8192 以下にする必要があります。 | このモデルでは、推論は常に有効になっています。このモデルは、推論機能のオンとオフの切り替えをサポートしていません。 |
Claude 3.7 Sonnet でモデル推論を使用する
注記
DeepSeek-R1 モデルでは、モデル推論は常に有効になっています。このモデルは、推論機能のオンとオフの切り替えをサポートしていません。
Claude 3.7 Sonnet モデルを使用する場合、RetrieveAndGenerate API の additionalModelRequestFields パラメータを使用してモデルの推論を有効または無効にすることができます。このパラメータは、すべてのキーと値のペアを受け入れます。例えば、次に示すように、reasoningConfig フィールドを追加し、type キーを使用して推論を有効または無効にできます。
{ "input": { "text": "string", "retrieveAndGenerateConfiguration": { "knowledgeBaseConfiguration": { "generationConfiguration": { "additionalModelRequestFields": { "reasoningConfig" : { "type": "enabled", "budget_tokens": INT_VAL, #required when enabled } } }, "knowledgeBaseId": "string", }, "type": "string" }, "sessionId": "string" }
一般的な考慮事項
ナレッジベースに推論モデルを使用する際の一般的な考慮事項を以下に示します。
-
推論モデルがクエリに応答するまでに最大 5 分かかります。モデルがクエリに応答するまで 5 分以上かかった場合、タイムアウトが発生します。
-
5 分間のタイムアウトを超えないよう、モデル推論は、クエリとレスポンスの生成を設定する生成ステップでのみ有効になります。オーケストレーションステップにモデルの推論を含めることはできません。
-
推論モデルは、最大 8192 個のトークンを使用してクエリに応答できます。これには、出力トークンと思考トークンの両方が含まれます。この制限を超える出力トークンの最大数をリクエストするリクエストは、エラーになります。
API の取得と生成に関する考慮事項
推論モデルに RetrieveAndGenerate API を使用する場合の考慮事項を以下に示します。
-
デフォルトでは、Claude 3.7 Sonnet を含むすべてのモデルで推論が無効になっている場合、温度がゼロに設定されます。推論が有効になっている場合は、温度を 1 に設定する必要があります。
"inferenceConfig": { "textInferenceConfig": { "maxTokens": 8192, "temperature": 1 } } -
Claude 3.7 Sonnet モデルで推論が有効になっている場合、パラメータトップ P を無効にする必要があります。トップ P は、生成時に選択するトークンのパーセンタイルを決定する追加のモデルリクエストフィールドです。デフォルトでは、他の Anthropic Claude モデルのトップ P 値は 1 です。Claude 3.7 Sonnet モデルの場合、この値はデフォルトで無効になります。
-
モデル推論を使用すると、レイテンシーが増加する可能性があります。この API オペレーションと
RetrieveAndGenerateStreamAPI オペレーションを使用すると、API からのレスポンスの受信が遅れる可能性があります。