Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
SageMaker Folgerung
Benutzerdefinierte Amazon Nova-Modelle sind jetzt auf SageMaker Inference verfügbar. Wenn Amazon Nova aktiviert ist SageMaker, können Sie damit beginnen, Prognosen oder Schlussfolgerungen aus Ihren trainierten benutzerdefinierten Amazon Nova-Modellen zu ziehen. SageMaker bietet eine breite Auswahl an Optionen zur ML-Infrastruktur und Modellbereitstellung, um all Ihren Anforderungen an ML-Inferenz gerecht zu werden. Mit SageMaker Inferenz können Sie Ihre Modellbereitstellung skalieren, Modelle in der Produktion effektiver verwalten und den betrieblichen Aufwand reduzieren.
SageMaker bietet Ihnen verschiedene Inferenzoptionen, z. B. Echtzeit-Endpunkte für Inferenzen mit geringer Latenz und asynchrone Endpunkte für Batches von Anfragen. Indem Sie die für Ihren Anwendungsfall geeignete Inferenzoption nutzen, können Sie eine effiziente Modellbereitstellung und Inferenz sicherstellen. Weitere Informationen zur Inferenz finden Sie unter Bereitstellen von Modellen für SageMaker Inferenz.
Wichtig
Bei der Inferenz werden nur benutzerdefinierte Modelle mit vollem Rang und mit LoRa zusammengeführte Modelle unterstützt. SageMaker Verwenden Sie Amazon Bedrock für nicht zusammengeführte LoRa-Modelle und Basismodelle.
Features
Die folgenden Funktionen sind für Amazon Nova-Modelle auf SageMaker Inferenz verfügbar:
Funktionen des Modells
-
Textgenerierung
Bereitstellung und Skalierung
-
Echtzeit-Endpunkte mit benutzerdefinierter Instanzauswahl
-
Auto Scaling — Passen Sie die Kapazität automatisch an die Verkehrsmuster an, um Kosten und GPU-Auslastung zu optimieren. Weitere Informationen finden Sie unter Automatisches Skalieren von SageMaker Amazon-Modellen.
-
Streaming-API-Unterstützung für die Token-Generierung in Echtzeit
Überwachung und Optimierung
-
CloudWatch Amazon-Integration für Überwachung und Benachrichtigungen
-
Latenzoptimierung unter Berücksichtigung der Availability Zone durch VPC-Konfiguration
Entwicklungstools
-
AWS CLI support — Weitere Informationen finden Sie in der AWS CLI-Befehlsreferenz für SageMaker.
-
Notebook-Integration über SDK-Unterstützung
Unterstützte Modelle und Instanzen
Bei der Erstellung Ihrer SageMaker Inferenzendpunkte können Sie zwei Umgebungsvariablen festlegen, um Ihre Bereitstellung zu konfigurieren: CONTEXT_LENGTH und. MAX_CONCURRENCY
-
CONTEXT_LENGTH— Maximale Gesamtlänge des Tokens (Eingabe + Ausgabe) pro Anfrage -
MAX_CONCURRENCY— Maximale Anzahl gleichzeitiger Anfragen, die der Endpunkt bearbeiten wird
In der folgenden Tabelle sind die unterstützten Amazon Nova-Modelle, Instance-Typen und unterstützten Konfigurationen aufgeführt. Die MAX_CONCURRENCY-Werte stellen die maximale unterstützte Parallelität für jede CONTEXT_LENGTH-Einstellung dar:
| Modell | Instance-Typ | Unterstützte Konfigurationen |
|---|---|---|
| Amazon Nova Micro | ml.g5.12xlarge |
CONTEXT_LENGTH: 4000, MAX_CONCURRENCY: 32 KONTEXTLÄNGE: 8000, MAXIMALE PARALLELITÄT: 16 |
| ml.g5.24xlarge | KONTEXTLÄNGE: 8000, MAXIMALE PARALLELITÄT: 32 | |
| ml.g6.12xlarge |
KONTEXTLÄNGE: 4000, MAXIMALE PARALLELITÄT: 32 KONTEXTLÄNGE: 8000, MAXIMALE PARALLELITÄT: 16 |
|
| ml.g6.24xlarge | KONTEXTLÄNGE: 8000, MAXIMALE PARALLELITÄT: 32 | |
| ml.g6.48xlarge | KONTEXTLÄNGE: 8000, MAXIMALE PARALLELITÄT: 32 | |
| ml.p5.48xlarge |
KONTEXTLÄNGE: 8000, MAXIMALE PARALLELITÄT: 32 KONTEXTLÄNGE: 16000, MAXIMALE PARALLELITÄT: 2 KONTEXTLÄNGE: 24000, MAXIMALE PARALLELITÄT: 1 |
|
| Amazon Nova Lite | ml.g6.48xlarge |
KONTEXTLÄNGE: 4000, MAXIMALE PARALLELITÄT: 32 KONTEXTLÄNGE: 8000, MAXIMALE PARALLELITÄT: 16 |
| ml.p5.48xlarge |
KONTEXTLÄNGE: 8000, MAXIMALE PARALLELITÄT: 32 KONTEXTLÄNGE: 16000, MAXIMALE PARALLELITÄT: 2 KONTEXTLÄNGE: 24000, MAXIMALE PARALLELITÄT: 1 |
|
| Nova 2 Lite | ml.p5.48xlarge |
KONTEXTLÄNGE: 8000, MAXIMALE PARALLELITÄT: 32 KONTEXTLÄNGE: 16000, MAXIMALE PARALLELITÄT: 2 KONTEXTLÄNGE: 24000, MAXIMALE PARALLELITÄT: 1 |
Anmerkung
Die angezeigten MAX_CONCURRENCY-Werte sind Obergrenzen für jede CONTEXT_LENGTH-Einstellung. Sie können niedrigere Kontextlängen bei derselben Parallelität verwenden, aber eine Überschreitung dieser Werte führt dazu, dass die Endpunkterstellung fehlschlägt. SageMaker
Zum Beispiel auf Amazon Nova Micro mit einem ml.g5.12xlarge:
-
CONTEXT_LENGTH=2000MAX_CONCURRENCY=32, → Gültig -
CONTEXT_LENGTH=8000,MAX_CONCURRENCY=32→ Abgelehnt (Parallelitätslimit liegt bei 16 bei einer Kontextlänge von 8000) -
CONTEXT_LENGTH=8000,MAX_CONCURRENCY=4→ Gültig -
CONTEXT_LENGTH=8000,MAX_CONCURRENCY=16→ Gültig -
CONTEXT_LENGTH=10000→ Abgelehnt (die maximale Kontextlänge beträgt 8000 auf dieser Instanz)
Unterstützte AWS Regionen
In der folgenden Tabelle sind die AWS Regionen aufgeführt, in denen Amazon Nova-Modelle auf SageMaker Inferenz verfügbar sind:
| Name der Region | Regionscode | Verfügbarkeit |
|---|---|---|
| USA Ost (Nord-Virginia) | us-east-1 | Available (Verfügbar) |
| USA West (Oregon) | us-west-2 | Available (Verfügbar) |
Unterstützte Container-Images
In der folgenden Tabelle ist das Container-Image URIs für Amazon Nova-Modelle nach SageMaker Inferenz nach Regionen aufgeführt. Für jede Region sind zwei Bild-Tags verfügbar: ein versioniertes Tag (v1.0.0) und ein neuestes Tag (SM-Inference-latest). Für Produktionsbereitstellungen empfehlen wir die Verwendung des versionierten Tags.
| Region | Container-Image URIs |
|---|---|
| us-east-1 | 708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-inference-repo:SM-Inference-latest |
| us-west-2 | 176779409107.dkr.ecr.us-west-2.amazonaws.com/nova-inference-repo:SM-Inference-latest |
Bewährte Methoden
Bewährte Methoden für die Bereitstellung und Verwaltung von Modellen auf SageMaker finden Sie unter Bewährte Methoden für SageMaker.
Support
Bei Problemen und Support mit Amazon Nova-Modellen auf SageMaker Inferenz wenden Sie sich über die Konsole oder Ihren AWS Kundenbetreuer an den AWS Support.