Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Unterstützte Features
Amazon SageMaker AI bietet die folgenden vier Optionen für die Bereitstellung von Modellen für Inferenz.
-
Inferenz in Echtzeit für Inferenz-Workloads mit interaktiven Echtzeitanforderungen mit geringer Latenz.
-
Batch-Transformation für Offline-Inferenz mit großen Datensätzen.
-
Asynchrone Inferenz für Inferenzen nahezu in Echtzeit mit großen Eingaben, die längere Vorverarbeitungszeiten erfordern.
-
Serverlose Inferenz für Inferenz-Workloads mit Leerlaufzeiten zwischen Datenverkehrsspitzen.
In der folgenden Tabelle sind die wichtigsten Plattformfunktionen zusammengefasst, die von den einzelnen Inferenzoptionen unterstützt werden. Sie zeigt keine Funktionen, die durch Frameworks, benutzerdefinierte Docker-Container oder durch Verkettung verschiedener AWS Dienste bereitgestellt werden können.
| Funktion | Echtzeit-Inferenz | Batch-Transformation | Asynchrone Inferenz | Serverlose Inferenz | Docker-Container |
|---|---|---|---|---|---|
| Unterstützung für Autoscaling | ✓ | N/A | ✓ | ✓ | N/A |
| Unterstützung für GPU | ✓ 1 | ✓ 1 | ✓ 1 | 1P, vorgefertigt, BYOC | |
| Einzelnes Modell | ✓ | ✓ | ✓ | ✓ | N/A |
| Multimodell-Endpunkt | ✓ | k-NN, XGBoost, Linear Learner, RCF, TensorFlow, Apache MXNet, PyTorch, scikit-learn 2 | |||
| Endpunkt mit mehreren Containern | ✓ | 1P, vorkonfiguriert, Extend vorkonfiguriert, BYOC | |||
| Pipeline für serielle Inferenzen | ✓ | ✓ | 1P, vorkonfiguriert, Extend vorkonfiguriert, BYOC | ||
| Empfehlung für Inferenzen | ✓ | 1P, vorkonfiguriert, Extend vorkonfiguriert, BYOC | |||
| Support für privaten Link | ✓ | ✓ | ✓ | N/A | |
| Unterstützung für Datenerfassung/Modellmonitor | ✓ | ✓ | N/A | ||
| DLCs werden unterstützt |
1P, vorkonfiguriert, Extend vorkonfiguriert, BYOC | 1P, vorkonfiguriert, Extend vorkonfiguriert, BYOC | 1P, vorkonfiguriert, Extend vorkonfiguriert, BYOC | 1P, vorkonfiguriert, Extend vorkonfiguriert, BYOC | N/A |
| Unterstützte Protokolle | HTTP/S | HTTP/S | HTTP/S | HTTP/S | N/A |
| Nutzlastgröße | < 6 MB | ≤ 100 MB | ≤ 1 GB | ≤ 4 MB | |
| HTTP-Blockcodierung | Framework-abhängig, 1P wird nicht unterstützt | N/A | Framework-abhängig, 1P wird nicht unterstützt | Framework-abhängig, 1P wird nicht unterstützt | N/A |
| Anforderungs-Timeout | < 60 Sekunden | Tage | < 1 Stunde | < 60 Sekunden | N/A |
| Bereitstellungs-Guardrails: Blau/Grün-Bereitstellungen | ✓ | N/A | ✓ | N/A | |
| Bereitstellungs-Guardrails: fortlaufende Bereitstellungen | ✓ | N/A | ✓ | N/A | |
| Schattentests | ✓ | N/A | |||
| Skalierung auf Null | N/A | ✓ | ✓ | N/A | |
| Unterstützung von Marketplace-Modellpaketen | ✓ | ✓ | N/A | ||
| Unterstützung für virtuellen privaten Cloud | ✓ | ✓ | ✓ | N/A | |
| Unterstützung mehrerer Produktionsvarianten | ✓ | N/A | |||
| Netzwerkisolierung | ✓ | ✓ | N/A | ||
| Unterstützung für die parallele Bedienung von Modellen | ✓ 3 | ✓ | ✓ 3 | ✓ 3 | |
| Volume-Verschlüsselung | ✓ | ✓ | ✓ | ✓ | N/A |
| Kunde AWS KMS | ✓ | ✓ | ✓ | ✓ | N/A |
| d Instance Unterstützung | ✓ | ✓ | ✓ | N/A | |
| inf1-Unterstützung | ✓ | ✓ |
Mit SageMaker AI können Sie ein einzelnes Modell oder mehrere Modelle hinter einem einzigen Inferenzendpunkt für Inferenz in Echtzeit bereitstellen. In der folgenden Tabelle sind die Kern-Features zusammengefasst, die von den verschiedenen Hosting-Optionen unterstützt werden, die mit Echtzeit-Inferenz ausgestattet sind.
| Funktion | Endgeräte mit einem einzigen Modell | Endpunkte mit mehreren Modellen | Pipeline für serielle Inferenzen | Endpunkte mit mehreren Containern |
|---|---|---|---|---|
| Unterstützung für Autoscaling | ✓ | ✓ | ✓ | ✓ |
| Unterstützung für GPU | ✓ 1 | ✓ | ✓ | |
| Einzelnes Modell | ✓ | ✓ | ✓ | ✓ |
| Endpunkte mit mehreren Modellen | ✓ | ✓ | N/A | |
| Endpunkte mit mehreren Containern | ✓ | N/A | ||
| Pipeline für serielle Inferenzen | ✓ | ✓ | N/A | |
| Empfehlung für Inferenzen | ✓ | |||
| Support für privaten Link | ✓ | ✓ | ✓ | ✓ |
| Unterstützung für Datenerfassung/Modellmonitor | ✓ | N/A | – | – |
| Unterstützte DLCs | 1P, vorkonfiguriert, Extend vorkonfiguriert, BYOC | k-NN, XGBoost, Linear Learner, RCF, TensorFlow, Apache MXNet, PyTorch, scikit-learn 2 | 1P, vorkonfiguriert, Extend vorkonfiguriert, BYOC | 1P, vorkonfiguriert, Extend vorkonfiguriert, BYOC |
| Unterstützte Protokolle | HTTP/S | HTTP/S | HTTP/S | HTTP/S |
| Nutzlastgröße | < 6 MB | < 6 MB | < 6 MB | < 6 MB |
| Anforderungs-Timeout | < 60 Sekunden | < 60 Sekunden | < 60 Sekunden | < 60 Sekunden |
| Bereitstellungs-Guardrails: Blau/Grün-Bereitstellungen | ✓ | ✓ | ✓ | ✓ |
| Bereitstellungs-Guardrails: fortlaufende Bereitstellungen | ✓ | ✓ | ✓ | ✓ |
| Schattentests | ✓ | |||
| Unterstützung von Marketplace-Modellpaketen | ✓ | |||
| Unterstützung für virtuellen privaten Cloud | ✓ | ✓ | ✓ | ✓ |
| Unterstützung mehrerer Produktionsvarianten | ✓ | ✓ | ✓ | |
| Netzwerkisolierung | ✓ | ✓ | ✓ | ✓ |
| Unterstützung für die parallele Bedienung von Modellen | ✓ 3 | ✓ 3 | ||
| Volume-Verschlüsselung | ✓ | ✓ | ✓ | ✓ |
| Kunde AWS KMS | ✓ | ✓ | ✓ | ✓ |
| d Instance Unterstützung | ✓ | ✓ | ✓ | ✓ |
| inf1-Unterstützung | ✓ |
1 Die Verfügbarkeit der Amazon-EC2-Instance-Typen hängt von der AWS-Region ab. Informationen zur Verfügbarkeit Instances spezifisch zu AWS, finden Sie unter Preise von Amazon SageMaker AI
2 Um ein anderes Framework oder einen anderen Algorithmus zu verwenden, nutzen Sie das Inferenz-Toolkit von SageMaker AI, um einen Container zu erstellen, der Multimodell-Endpunkte unterstützt.
3 Mit SageMaker AI können Sie große Modelle (bis zu 500 GB) für Inferenz bereitstellen. Sie können die Container-Integritätsprüfung und die Download-Timeout-Kontingente von bis zu 60 Minuten konfigurieren. Dadurch haben Sie mehr Zeit zum Herunterladen und Laden Ihres Modells und der zugehörigen Ressourcen. Weitere Informationen finden Sie unter SageMaker-AI-Endpunktparameter zur Inferenz großer Modelle. Sie können mit SageMaker AI kompatible Inferenzcontainer großer Modelle