View a markdown version of this page

最佳化效能和成本的服務層 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

最佳化效能和成本的服務層

Amazon Bedrock 為模型推論提供四個服務層:預留、優先順序、標準和彈性。透過服務層,您可以最佳化可用性、成本和效能。

預留層

預留層可讓您為任務關鍵應用程式預留優先順序運算容量,而這些應用程式無法容忍任何停機時間。您可以靈活地配置不同的輸入和輸出tokens-per-minute容量,以符合工作負載和控制成本的確切需求。當您的應用程式每分鐘需要比您預留更多的tokens-per-minute容量時,服務會自動溢位到 Standard 層,以確保不間斷的操作。預留層以模型回應的 99.5% 執行時間為目標。客戶可以保留 1 個月或 3 個月的容量。客戶每分鐘每 1K tokens-per-minute支付固定價格,並按月計費。

預留層具有下列最低容量需求:

  • 每分鐘最低輸入tokens-per-minute (TPM):100,000

  • 每分鐘最低輸出tokens-per-minute (TPM):10,000

若要存取預留方案,請聯絡您的 AWS 帳戶團隊。

重要

調整預留層容量時,請注意您的tokens-per-minute使用量同時包含 InputTokenCountCacheWriteInputTokens。如果您使用提示快取,您應該在 Amazon CloudWatch 中加總這兩個指標,以準確預估所需的保留。如需字符如何計入配額的詳細資訊,請參閱 了解字符配額管理

注意

帳單會持續進行,直到您在 AWS 帳戶 經理的協助下刪除預留方案保留為止。

優先順序層級

Priority 方案提供比標準隨需定價更快速的價格溢價回應時間。它最適合具有面對客戶的業務工作流程的任務關鍵應用程式,這些工作流程不需要24X7的容量保留。優先順序方案不需要事先保留。您可以直接將 "service_tier" 選用參數設定為 "priority",以利用請求層級優先順序。優先順序方案請求會優先於標準和 Flex 方案請求。

標準方案

Standard 層可為內容產生、文字分析和例行文件處理等日常 AI 任務提供一致的效能。在預設情況下,當缺少 "service_tier" 參數時,所有推論請求都會路由至 Standard 層。您也可以將「service_tier」選用參數設定為「default」,讓您的推論請求可與 Standard 層搭配使用。

Flex 方案

對於可以處理較長處理時間的工作負載,Flex 層提供符合成本效益的定價折扣處理。這可協助您最佳化工作負載的成本,例如模型評估、內容摘要和代理程式工作流程。您可以設定「service_tier」選用參數為「flex」,讓您的推論請求可搭配 Flex 方案使用,並提供定價折扣。

使用服務層功能

若要存取服務層功能,您可以在呼叫 Amazon Bedrock 執行時間 API 時,將 "service_tier" 選用參數設定為 "reserved"、"priority"、"default" 或 "flex"。

"service_tier" : "reserved | priority | default | flex"

模型的隨需配額會跨「優先順序」、「預設」和「彈性」服務層共用。您的「預留」方案容量保留與隨需配額不同。服務請求的服務層組態會顯示在 API 回應和 AWS CloudTrail Events 中。您也可以在 ModelId、ServiceTier 和 ResolvedServiceTier 下檢視 Amazon CloudWatch Metrics 中的服務層指標,其中 ResolvedServiceTier 會顯示提供您請求的實際層。

如需有關定價的詳細資訊,請造訪定價頁面

請參閱模型一目了然,然後選擇您感興趣的模型,以查看模型支援的服務層。

若要控制對服務層的存取,請參閱 控制對服務層的存取