On-Demand-Inferenz für benutzerdefinierte Modelle
On-Demand-Inferenz (OD) ermöglicht es Ihnen, Inferenzen für Ihre benutzerdefinierten Amazon-Nova-Modelle auszuführen, ohne die bereitgestellten Durchsatzendpunkte aufrechtzuerhalten. Dies unterstützt Sie bei der Kostenoptimierung und ermöglicht eine effiziente Skalierung. Bei der On-Demand-Inferenz werden Ihnen die Kosten auf Basis der Nutzung berechnet, gemessen in Token, sowohl für eingehende als auch für ausgehende Daten.
Kompatibilitätsanforderungen
Es gelten die folgenden Kompatibilitätsanforderungen:
-
OD-Inferenz wird für benutzerdefinierte Understanding-Modelle von Amazon Nova Pro, Lite und Micro unterstützt. OD-Inferenz wird für Nova-Modelle zur benutzerdefinierten Inhaltsgenerierung nicht unterstützt.
-
OD-Inferenz wird für benutzerdefinierte Understanding-Modelle von Amazon Nova unterstützt, die nach dem 16. Juli 2025 trainiert wurden. Benutzerdefinierte Modelle, die vor dem 16. Juli 2025 trainiert wurden, sind nicht mit OD-Inferenz kompatibel.
-
Amazon-Bedrock-Anpassung: OD-Inferenz wird für Modelle unterstützt, die mit Amazon Bedrock angepasst wurden, sowie für Schülermodelle, die mit Amazon Bedrock aus einem Lehrermodell destilliert wurden.
-
SageMaker-AI-Anpassung: Für in SageMaker AI angepasste Modelle wird die OD-Inferenz nur für parameteroptimierte Modelle mit Feinabstimmung (PEFT) unterstützt, wenn das Modell auf Amazon Bedrock gehostet wird. Dazu gehören Direkte Präferenzoptimierung und PEFT. Die OD-Inferenz wird für Full-Rank-optimierte Modelle nicht unterstützt.
Modelltraining und Inferenz
Wenn Sie nach dem 16. Juli 2025 ein neues benutzerdefiniertes Modell von Amazon Nova Pro, Lite oder Micro auf Amazon Bedrock oder SageMaker AI mit PEFT trainieren, ist das Modell automatisch sowohl mit den bereitgestellten als auch mit den On-Demand-Inferenzoptionen kompatibel. Sie können bei der Bereitstellung Ihres Modells Ihre bevorzugte Inferenzmethode auswählen.
Um die OD-Inferenz mit einem nach dem 16. Juli 2025 trainierten Modell zu verwenden, führen Sie bitte die folgenden Schritte aus:
-
Erstellen Sie einen neuen Feinabstimmung-Job entweder mit der Anpassungs-API für Amazon Bedrock oder der Anpassungs-API für SageMaker AI.
-
Stellen Sie das neu trainierte Modell mithilfe der API CreateCustomModel auf Amazon Bedrock bereit.
-
Stellen Sie es mithilfe der API CustomModelDeployment für On-Demand-Inferenzen bereit.
Ratenbegrenzungen
Die folgenden Begrenzungen für Anfragen pro Minute (RPM) und Token pro Minute (TPM) gelten für On-Demand-Inferenzanfragen:
| Base Model for Custom Model | RPM per Custom Model Deployment | TPM per Custom Model Deployment |
|---|---|---|
| Amazon Nova Micro | 2,000 | 4,000,000 |
| Amazon Nova Lite | 2,000 | 4,000,000 |
| Amazon Nova Pro | 200 | 800,000 |
Weitere Informationen zu den für Amazon Nova verfügbaren Kontingenten finden Sie unter Kontingente für Amazon Nova.
Latenz
Es ist mit einem Unterschied in der End-to-End-Latenz (d. h. Time To First Token, TTFT) von 20 bis 55 % zwischen dem Aufruf des Basismodells und dem Adapter zu rechnen. Der genaue Latenzwert variiert je nach Modellgröße und entspricht den Branchenstandards.