最佳化效能和成本的服務層

Amazon Bedrock 為模型推論提供四個服務層：預留、優先順序、標準和彈性。透過服務層，您可以最佳化可用性、成本和效能。

預留層

預留層可讓您為任務關鍵應用程式預留優先順序運算容量，而這些應用程式無法容忍任何停機時間。您可以靈活地配置不同的輸入和輸出tokens-per-minute容量，以符合工作負載和控制成本的確切需求。當您的應用程式每分鐘需要比您預留更多的tokens-per-minute容量時，服務會自動溢位到 Standard 層，以確保不間斷的操作。預留層以模型回應的 99.5% 執行時間為目標。客戶可以保留 1 個月或 3 個月的容量。客戶每分鐘每 1K tokens-per-minute支付固定價格，並按月計費。

預留層具有下列最低容量需求：

每分鐘最低輸入tokens-per-minute (TPM)：100，000
每分鐘最低輸出tokens-per-minute (TPM)：10，000

若要存取預留方案，請聯絡您的 AWS 帳戶團隊。

重要

調整預留層容量時，請注意您的tokens-per-minute使用量同時包含 InputTokenCount和 CacheWriteInputTokens。如果您使用提示快取，您應該在 Amazon CloudWatch 中加總這兩個指標，以準確預估所需的保留。如需字符如何計入配額的詳細資訊，請參閱了解字符配額管理。

注意

帳單會持續進行，直到您在 AWS 帳戶經理的協助下刪除預留方案保留為止。

優先順序層級

Priority 方案提供比標準隨需定價更快速的價格溢價回應時間。它最適合具有面對客戶的業務工作流程的任務關鍵應用程式，這些工作流程不需要24X7的容量保留。優先順序方案不需要事先保留。您可以直接將 "service_tier" 選用參數設定為 "priority"，以利用請求層級優先順序。優先順序方案請求會優先於標準和 Flex 方案請求。

標準方案

Standard 層可為內容產生、文字分析和例行文件處理等日常 AI 任務提供一致的效能。在預設情況下，當缺少 "service_tier" 參數時，所有推論請求都會路由至 Standard 層。您也可以將「service_tier」選用參數設定為「default」，讓您的推論請求可與 Standard 層搭配使用。

Flex 方案

對於可以處理較長處理時間的工作負載，Flex 層提供符合成本效益的定價折扣處理。這可協助您最佳化工作負載的成本，例如模型評估、內容摘要和代理程式工作流程。您可以設定「service_tier」選用參數為「flex」，讓您的推論請求可搭配 Flex 方案使用，並提供定價折扣。

使用服務層功能

若要存取服務層功能，您可以在呼叫 Amazon Bedrock 執行時間 API 時，將 "service_tier" 選用參數設定為 "reserved"、"priority"、"default" 或 "flex"。


"service_tier" : "reserved | priority | default | flex"

模型的隨需配額會跨「優先順序」、「預設」和「彈性」服務層共用。您的「預留」方案容量保留與隨需配額不同。服務請求的服務層組態會顯示在 API 回應和 AWS CloudTrail Events 中。您也可以在 ModelId、ServiceTier 和 ResolvedServiceTier 下檢視 Amazon CloudWatch Metrics 中的服務層指標，其中 ResolvedServiceTier 會顯示提供您請求的實際層。

如需有關定價的詳細資訊，請造訪定價頁面。

請參閱模型一目了然，然後選擇您感興趣的模型，以查看模型支援的服務層。

若要控制對服務層的存取，請參閱控制對服務層的存取

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

容量和效能

批次推論