针对延迟优化模型推理 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

针对延迟优化模型推理

注意

延迟优化推理功能处于预览版Amazon Bedrock,可能会发生变化。

中针对基础模型进行了延迟优化的推理,Amazon Bedrock可缩短响应时间,提高了 AI 应用程序的响应速度。优化版本的 Amazon Nova ProAnthropic 的 Claude 3.5 Haiku 模型Meta 的 Llama 3.1 405B 与 70B 模型能显著减少延迟,并且不影响准确度。

无需进行额外的设置或模型微调即可访问延迟优化功能,进而能够立即增强现有应用程序并缩短响应时间。您可以在调用 Amazon Bedrock 运行时 API 时将“延迟”参数设置为“已优化”。如果您选择“标准”作为调用选项,则您的请求将由标准推理功能处理。默认情况下,所有请求都通过“标准”选项进行路由。

"performanceConfig" : { "latency" : "standard | optimized" }

一旦您达到模型延迟优化功能的使用配额,我们将尝试以标准延迟处理请求。在此类情况下,将按标准延迟费率收取请求费用。已处理请求的延迟配置在 API 响应和AWS CloudTrail日志中可见。您还可以在Amazon CloudWatch日志中的 “model-id+延迟优化” 下查看延迟优化请求的指标。

延迟优化推理功能可通过跨区域推理用于在美国东部(俄亥俄州)和美国西部(俄勒冈州)区域推出的 Meta 的 Llama 3.1 70B 和 405B,以及 Anthropic 的 Claude 3.5 Haiku。

延迟优化推理功能可通过跨区域推理用于在美国东部(弗吉尼亚州北部)美国东部(俄亥俄州)和美国西部(俄勒冈州)区域推出的 Amazon Nova Pro。

有关定价的更多信息,请访问定价页面

注意

Llama 3.1 405B 的延迟优化推理功能目前支持输入和输出令牌总数高达 11K 的请求。对于词元数量较多的请求,我们将回退到标准模式。

下表显示了支持延迟优化的推理配置文件:

Provider 模型 模型 ID 跨区域推理配置文件支持
Amazon Nova Pro 亚马逊。 nova-pro-v1:0

us-east-1

us-east-2

Anthropic Claude 3.5 Haiku anthropic.claude-3-5-haiku-20241022-v1:0

us-east-2

us-west-2

Meta Llama 3.1 405B Instruct meta.llama3-1-405 1:0 b-instruct-v

us-east-2

Meta Llama 3.1 70B Instruct meta.llama3-1-70 1:0 b-instruct-v

us-east-2

us-west-2

有关推理配置文件的更多信息,请参阅 支持推理配置文件的区域和模型