針對延遲最佳化模型推論

注意

延遲最佳化推論功能為的預覽版本 Amazon Bedrock ，可能會有所變更。

中基礎模型的延遲最佳化推論，可為 AI 應用程式 Amazon Bedrock 提供更快的回應時間並改善回應能力。最佳化版本的 Amazon Nova Pro、Anthropic 的 Claude 3.5 Haiku 模型和 Meta 的 Llama 3.1 405B 和 70B 模型可大幅降低延遲，而不會影響準確性。

存取延遲最佳化功能不需要額外的設定或模型微調，可讓您以更快的回應時間立即增強現有應用程式。您可以在呼叫 Amazon Bedrock 執行時期 API 時，將「延遲」參數設定為「最佳化」。如果您選取「標準」作為調用選項，您的請求將由標準推論提供。根據預設，所有請求都會透過「標準」路由。


"performanceConfig" : {
    "latency" : "standard | optimized" 
}

一旦您達到模型延遲最佳化的使用配額，我們將嘗試以標準延遲來提供請求。在這種情況下，請求將按標準延遲率收費。服務請求的延遲組態會顯示在 API 回應和 AWS CloudTrail 日誌中。您也可以在「model-id+latency-optimized」下的 Amazon CloudWatch 日誌中檢視延遲最佳化請求的指標。

延遲最佳化推論適用於 Meta 的 Llama 3.1 70B 和 405B，以及透過跨區域推論美國東部 (俄亥俄) 和美國西部 (奧勒岡) 區域中 Anthropic 的 Claude 3.5 Haiku。

透過跨區域推論，延遲最佳化推論適用於美國東部 (維吉尼亞北部)、美國東部 (俄亥俄) 和美國西部 (奧勒岡) 區域中的 Amazon Nova Pro。

如需有關定價的詳細資訊，請造訪定價頁面。

注意

Llama 3.1 405B 的延遲最佳化推論目前支援輸入和輸出字符總數高達 11K 的請求。對於較大的字符計數請求，我們將返回標準模式。

下表顯示支援延遲最佳化的推論設定檔：

供應商	模型	模型 ID	跨區域推論設定檔支援
Amazon	Nova Pro	amazon.nova-pro-v1:0	us-east-1 us-east-2
Anthropic	Claude 3.5 Haiku	anthropic.claude-3-5-haiku-20241022-v1:0	us-east-2 us-west-2
Meta	Llama 3.1 405B Instruct	meta.llama3-1-405b-instruct-v1:0	us-east-2
Meta	Llama 3.1 70B Instruct	meta.llama3-1-70b-instruct-v1:0	us-east-2 us-west-2

如需推論設定檔的詳細資訊，請參閱推論設定檔支援的區域和模型。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

推論推理

使用 OpenAI APIs推論