基於自訂模型的隨需推論 - Amazon Nova

基於自訂模型的隨需推論

隨需 (OD) 推論可讓您在自訂 Amazon Nova 模型上執行推論,而無需維護佈建的輸送量端點。這可協助您最佳化成本並有效率地進行擴展。使用隨需推論時,會根據使用量向您收費,以詞元數計量,包括進出詞元。

相容性要求

適用下列相容性要求:

  • Amazon Nova Pro、Lite 和 Micro 自訂理解模型均支援隨需推論。Nova 自訂內容產生模型不支援隨需推論。

  • 2025 年 7 月 16 日之後訓練的 Amazon Nova 自訂理解模型支援隨需推論。2025 年 7 月 16 日之前訓練的自訂模型與隨需推論不相容。

  • Amazon Bedrock 自訂:使用 Amazon Bedrock 自訂自訂的模型,以及使用 Amazon Bedrock 從教師模型蒸餾的學生模型,均支援隨需推論。

  • SageMaker AI 自訂:對於 SageMaker AI 中自訂的模型,只有在 Amazon Bedrock 上託管的參數高效微調 (PEFT) 模型才支援隨需推論。這包括直接偏好最佳化及 PEFT。經微調的全秩模型不支援隨需推論。

模型訓練與推論

在 2025 年 7 月 16 日之後使用 PEFT 在 Amazon Bedrock 或 SageMaker AI 上訓練新的自訂 Amazon Nova Pro、Lite 或 Micro 模型時,模型會自動與佈建和隨需推論選項相容。您可以在部署模型時選取偏好的推論方法。

若要搭配 2025 年 7 月 16 日之後訓練的模型使用隨需推論,請完成下列步驟:

  1. 使用 Amazon Bedrock 自訂 APISageMaker AI 自訂 API 建立新的微調任務。

  2. 使用 CreateCustomModel API 將新訓練的模型部署到 Amazon Bedrock。

  3. 使用 CustomModelDeployment API 部署以進行隨需推論。

速率限制

下列每分鐘請求數 (RPM) 和每分鐘詞元數 (TPM) 限制適用於隨需推論請求:

Base Model for Custom Model RPM per Custom Model Deployment TPM per Custom Model Deployment
Amazon Nova Micro 2,000 4,000,000
Amazon Nova Lite 2,000 4,000,000
Amazon Nova Pro 200 800,000

若要進一步了解 Amazon Nova 適用的配額,請參閱 Amazon Nova 的配額

延遲

您可以預期基本模型調用與轉接器之間的端至端延遲差異 (即到第一個詞元的時間 (TTFT)) 為 20-55%。確切的延遲值因模型大小而異,且符合業界標準。