針對延遲最佳化模型推論 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

針對延遲最佳化模型推論

注意

延遲最佳化推論功能為 的預覽版本Amazon Bedrock,可能會有所變更。

中基礎模型的延遲最佳化推論,可為 AI 應用程式Amazon Bedrock提供更快的回應時間並改善回應能力。最佳化版本的 Amazon Nova ProAnthropic 的 Claude 3.5 Haiku 模型Meta 的 Llama 3.1 405B 和 70B 模型可大幅降低延遲,而不會影響準確性。

存取延遲最佳化功能不需要額外的設定或模型微調,可讓您以更快的回應時間立即增強現有應用程式。您可以在呼叫 Amazon Bedrock 執行時期 API 時,將「延遲」參數設定為「最佳化」。如果您選取「標準」作為調用選項,您的請求將由標準推論提供。根據預設,所有請求都會透過「標準」路由。

"performanceConfig" : { "latency" : "standard | optimized" }

一旦您達到模型延遲最佳化的使用配額,我們將嘗試以標準延遲來提供請求。在這種情況下,請求將按標準延遲率收費。服務請求的延遲組態會顯示在 API 回應和AWS CloudTrail日誌中。您也可以在「model-id+latency-optimized」下的Amazon CloudWatch日誌中檢視延遲最佳化請求的指標。

延遲最佳化推論適用於 Meta 的 Llama 3.1 70B 和 405B,以及透過跨區域推論美國東部 (俄亥俄) 和美國西部 (奧勒岡) 區域中 Anthropic 的 Claude 3.5 Haiku。

透過跨區域推論,延遲最佳化推論適用於美國東部 (維吉尼亞北部)、美國東部 (俄亥俄) 和美國西部 (奧勒岡) 區域中的 Amazon Nova Pro。

如需有關定價的詳細資訊,請造訪定價頁面

注意

Llama 3.1 405B 的延遲最佳化推論目前支援輸入和輸出字符總數高達 11K 的請求。對於較大的字符計數請求,我們將返回標準模式。

下表顯示支援延遲最佳化的推論設定檔:

供應商 模型 模型 ID 跨區域推論設定檔支援
Amazon Nova Pro amazon.nova-pro-v1:0

us-east-1

us-east-2

Anthropic Claude 3.5 Haiku anthropic.claude-3-5-haiku-20241022-v1:0

us-east-2

us-west-2

Meta Llama 3.1 405B Instruct meta.llama3-1-405b-instruct-v1:0

us-east-2

Meta Llama 3.1 70B Instruct meta.llama3-1-70b-instruct-v1:0

us-east-2

us-west-2

如需推論描述檔的詳細資訊,請參閱 推論設定檔支援的區域和模型