用于优化性能和成本的服务分层

Amazon Bedrock 为模型推断提供了四个服务等级：预留、优先级、标准和弹性。通过服务层，您可以针对可用性、成本和性能进行优化。

预留等级

Reserved 层允许您为无法容忍任何停机的任务关键型应用程序预留按优先顺序排列的计算容量。您可以灵活地分配不同的每分钟输入和输出令牌容量，以满足您的工作负载和控制成本的确切要求。当您的应用程序每分钟需要的令牌容量超过预留容量时，该服务会自动溢出到标准级别，从而确保不间断运行。预留层的目标是模型响应的正常运行时间为 99.5%。客户可以预留 1 个月或 3 个月的容量。客户按每分钟 1K 个代币支付固定价格，并按月计费。

预留层具有以下最低容量要求：

每分钟最低输入令牌 (TPM)：100,000
每分钟最低输出令牌 (TPM)：10,000

要获得预留套餐的访问权限，请联系您的 AWS 账户团队。

重要

在调整预留套餐容量时，请注意，您的每分钟代币消耗量包括和。InputTokenCount CacheWriteInputTokens如果您使用提示缓存，则应在 Amazon 中将这两个指标相加 CloudWatch ，以准确估算所需的预订。有关如何将代币计入配额的更多信息，请参阅了解词元配额管理。

注意

账单将一直持续到您在 AWS 账户经理的帮助下删除预留套餐预留为止。

优先等级

与标准按需定价相比，Priority 等级可提供最快的响应时间，而且价格更高。它最适合具有面向客户的业务工作流程且不保证全天候容量预留的关键任务应用程序。优先等级不需要事先预订。您只需将 “service_tier” 可选参数设置为 “优先级”，即可使用请求级别的优先级。优先等级请求的优先级高于标准和弹性级别的请求。

标准等级

标准层为内容生成、文本分析和例行文档处理等日常 AI 任务提供稳定的性能。默认情况下，当缺少 “service_tier” 参数时，所有推理请求都会路由到标准层。您也可以将 “service_tier” 可选参数设置为 “默认”，以便使用标准套餐处理您的推理请求。

弹性等级

对于可以处理更长处理时间的工作负载，Flex 层可提供经济实惠的处理能力，并享受定价折扣。这可以帮助您优化模型评估、内容摘要和代理工作流程等工作负载的成本。您可以将 “service_tier” 可选参数设置为 “flex”，这样您的推理请求将与 Flex 层一起提供，并享受定价折扣。

使用服务层功能

要访问服务层功能，您可以在调用 Amazon Bedrock 运行时 API 时将 “service_tier” 可选参数设置为 “预留”、“优先级”、“默认” 或 “弹性”。


"service_tier" : "reserved | priority | default | flex"

您的模型按需配额在 “优先级”、“默认” 和 “弹性” 服务层之间共享。您的 “预留” 套餐容量预留与按需配额是分开的。已处理请求的服务等级配置在 API 响应和 AWS CloudTrail 事件中可见。您还可以在、和 ModelId、 ServiceTier下的 Amazon Metrics 中查看服务等级 CloudWatch 指标 ResolvedServiceTier，其中 ResolvedServiceTier 显示了满足您请求的实际等级。

有关定价的更多信息，请访问定价页面。

请前往模型一览并选择您感兴趣的型号，以查看该型号支持的服务级别。

要控制对服务层的访问权限，请参阅控制对服务层的访问权限

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

容量和性能

批量推理