推理模型对 Claude 3.7 Sonnet 使用模型推理一般注意事项检索和生成 API 的注意事项

使用知识库为推理模型配置响应生成

某些基础模型能够执行模型推理，因而可以执行较大型的复杂任务，并将其分解为较小型、较简单的步骤。此过程通常被称为思维链（CoT）推理，可以让模型有机会在做出反应之前进行思考，从而提高模型的准确性。模型推理对于多步分析、数学问题和复杂推理任务等任务最为有用。有关更多信息，请参阅使用模型推理增强模型响应。

注意

本页介绍如何使用专门针对 Amazon Bedrock 知识库的推理配置。有关使用 InvokeModel API 为直接模型调用配置推理的信息，请参阅使用模型推理增强模型响应。

启用模型推理后，它可以提高准确性并获得更好的引文结果，但可能导致延迟增加。以下是您在将推理模型用于 Amazon Bedrock 知识库以查询数据来源和生成响应时的一些注意事项。

推理模型

要查看哪些模型支持推理，请快速访问模型并选择您感兴趣的模型。

对 Claude 3.7 Sonnet 使用模型推理

注意

始终为模型启用 DeepSeek-R1 模型推理。此模型不支持开启和关闭推理功能的切换。

使用 Claude 3.7 Sonnet 模型时，可以使用 RetrieveAndGenerate API 的 additionalModelRequestFields 参数启用或禁用模型推理。此参数接受任何键值对。例如，您可以添加 reasoningConfig 字段，并使用 type 键来启用或禁用推理，如下所示。


{
   "input": { 
      "text": "string",
      "retrieveAndGenerateConfiguration": { 
      "knowledgeBaseConfiguration": { 
         "generationConfiguration": { 
            "additionalModelRequestFields": {
                "reasoningConfig" : {
                    "type": "enabled",
                    "budget_tokens": INT_VAL, #required when enabled
                }
            }
         },
         "knowledgeBaseId": "string",
      },
      "type": "string"
   },
   "sessionId": "string"
}

一般注意事项

以下是将推理模型用于知识库的一些一般注意事项。

推理模型最多有五分钟的时间来响应查询。如果模型响应查询的时间超过五分钟，则会导致超时。
为了避免超过超时时间（五分钟），请仅在配置查询和响应生成时，在生成步骤中启用模型推理。编排步骤不能包含模型推理。
推理模型最多可以使用 8192 个词元来响应查询，其中包括输出和思考词元。在任何请求中，如果输出词元的最大数量超过此限制，都将导致错误。

检索和生成 API 的注意事项

以下是将 RetrieveAndGenerate API 用于推理模型时的一些注意事项。

默认情况下，当包括 Claude 3.7 Sonnet 在内的所有模型都禁用推理时，temperature 将设置为 0。启用推理后，必须将 temperature 设置为 1。
```
"inferenceConfig": {
    "textInferenceConfig": {
        "maxTokens": 8192,
        "temperature": 1
    }
}
```
为 Claude 3.7 Sonnet 模型启用推理功能时，必须禁用参数 Top P。Top P 是一个附加的模型请求字段，用于确定生成期间可供选择的可能词元的百分位数。默认情况下，其他 Anthropic Claude 模型的 Top P 值为 1。对于 Claude 3.7 Sonnet 模型，默认情况下将禁用此值。
使用模型推理时，可能会导致延迟增加。在使用此 API 操作和 RetrieveAndGenerateStream API 操作时，您可能会注意到接收来自 API 的响应有延迟。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

配置和自定义查询与响应

为应用程序部署知识库