针对延迟优化模型推理

注意

延迟优化推理功能处于预览版 Amazon Bedrock ，可能会发生变化。

中针对基础模型进行了延迟优化的推理， Amazon Bedrock 可缩短响应时间，提高了 AI 应用程序的响应速度。优化版本的 Amazon Nova Pro、Anthropic 的 Claude 3.5 Haiku 模型和 Meta 的 Llama 3.1 405B 与 70B 模型能显著减少延迟，并且不影响准确度。

无需进行额外的设置或模型微调即可访问延迟优化功能，进而能够立即增强现有应用程序并缩短响应时间。您可以在调用 Amazon Bedrock 运行时 API 时将“延迟”参数设置为“已优化”。如果您选择“标准”作为调用选项，则您的请求将由标准推理功能处理。默认情况下，所有请求都通过“标准”选项进行路由。


"performanceConfig" : {
    "latency" : "standard | optimized" 
}

一旦您达到模型延迟优化功能的使用配额，我们将尝试以标准延迟处理请求。在此类情况下，将按标准延迟费率收取请求费用。已处理请求的延迟配置在 API 响应和 AWS CloudTrail 日志中可见。您还可以在 Amazon CloudWatch 日志中的 “model-id+延迟优化” 下查看延迟优化请求的指标。

延迟优化推理功能可通过跨区域推理用于在美国东部（俄亥俄州）和美国西部（俄勒冈州）区域推出的 Meta 的 Llama 3.1 70B 和 405B，以及 Anthropic 的 Claude 3.5 Haiku。

延迟优化推理功能可通过跨区域推理用于在美国东部（弗吉尼亚州北部）美国东部（俄亥俄州）和美国西部（俄勒冈州）区域推出的 Amazon Nova Pro。

有关定价的更多信息，请访问定价页面。

注意

Llama 3.1 405B 的延迟优化推理功能目前支持输入和输出令牌总数高达 11K 的请求。对于词元数量较多的请求，我们将回退到标准模式。

下表显示了支持延迟优化的推理配置文件：

Provider	模型	模型 ID	跨区域推理配置文件支持
Amazon	Nova Pro	亚马逊。 nova-pro-v1:0	us-east-1 us-east-2
Anthropic	Claude 3.5 Haiku	anthropic.claude-3-5-haiku-20241022-v1:0	us-east-2 us-west-2
Meta	Llama 3.1 405B Instruct	meta.llama3-1-405 1:0 b-instruct-v	us-east-2
Meta	Llama 3.1 70B Instruct	meta.llama3-1-70 1:0 b-instruct-v	us-east-2 us-west-2

有关推理配置文件的更多信息，请参阅支持推理配置文件的区域和模型。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

推理推理

使用 OpenAI 进行推理 APIs