

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 针对延迟优化模型推理
<a name="latency-optimized-inference"></a>

**注意**  
延迟优化推理功能处于预览版 Amazon Bedrock ，可能会发生变化。

Latency-optimized 中基础模型的推理 Amazon Bedrock 可以缩短 AI 应用程序的响应时间并提高响应能力。优化版本的 [https://docs.aws.amazon.com/nova/latest/userguide/what-is-nova.html](https://docs.aws.amazon.com/nova/latest/userguide/what-is-nova.html)、[Anthropic 的 Claude 3.5 Haiku 模型](https://aws.amazon.com/bedrock/claude/)和 [Meta 的 Llama 3.1 405B 与 70B 模型](https://aws.amazon.com/bedrock/llama/)能显著减少延迟，并且不影响准确度。

无需进行额外的设置或模型微调即可访问延迟优化功能，进而能够立即增强现有应用程序并缩短响应时间。您可以在调用 Amazon Bedrock 运行时 API 时将“延迟”参数设置为“已优化”。如果您选择“标准”作为调用选项，则您的请求将由标准推理功能处理。默认情况下，所有请求都通过“标准”选项进行路由。

```
"performanceConfig" : {
    "latency" : "standard | optimized" 
}
```

一旦您达到模型延迟优化功能的使用配额，我们将尝试以标准延迟处理请求。在此类情况下，将按标准延迟费率收取请求费用。已处理请求的延迟配置在 API 响应和 AWS CloudTrail 日志中可见。您还可以在 Amazon CloudWatch 日志中的 “model-id\+延迟优化” 下查看延迟优化请求的指标。

延迟优化推理功能可通过[跨区域推理](https://docs.aws.amazon.com/bedrock/latest/userguide/cross-region-inference.html)用于在美国东部（俄亥俄州）和美国西部（俄勒冈州）区域推出的 Meta 的 Llama 3.1 70B 和 405B，以及 Anthropic 的 Claude 3.5 Haiku。

延迟优化推理功能可通过[跨区域推理](https://docs.aws.amazon.com/bedrock/latest/userguide/cross-region-inference.html)用于在美国东部（弗吉尼亚州北部）美国东部（俄亥俄州）和美国西部（俄勒冈州）区域推出的 Amazon Nova Pro。

有关定价的更多信息，请访问[定价页面](https://aws.amazon.com/bedrock/pricing/)。

**注意**  
 Llama 3.1 405B 的延迟优化推理功能目前支持输入和输出令牌总数高达 11K 的请求。对于词元数量较多的请求，我们将回退到标准模式。

下表显示了支持延迟优化的推理配置文件：


| Provider | 模型 | 模型 ID | Cross-region 推理配置文件支持 | 
| --- | --- | --- | --- | 
| Amazon | Nova Pro | amazon.nova-pro-v1:0 | us-east-1<br />us-east-2 | 
| Anthropic | Claude 3.5 Haiku | anthropic.claude-3-5-haiku-20241022-v1:0 | us-east-2<br />us-west-2 | 
| Meta | Llama 3.1 405B Instruct | meta.llama3-1-405b-instruct-v1:0 | us-east-2 | 
| Meta | Llama 3.1 70B Instruct | meta.llama3-1-70b-instruct-v1:0 | us-east-2<br />us-west-2 | 

有关推理配置文件的更多信息，请参阅 [支持推理配置文件的区域和模型](inference-profiles-support.md)。