Modelle für Inference einsetzen

Mit Amazon SageMaker AI können Sie beginnen, Vorhersagen oder Schlussfolgerungen aus Ihren trainierten Modellen für maschinelles Lernen zu ziehen. SageMaker KI bietet eine breite Auswahl an ML-Infrastruktur- und Modellbereitstellungsoptionen, um all Ihre ML-Inferenzanforderungen zu erfüllen. Mit SageMaker AI Inference können Sie Ihre Modellbereitstellung skalieren, Modelle in der Produktion effektiver verwalten und den betrieblichen Aufwand reduzieren. SageMaker KI bietet Ihnen verschiedene Inferenzoptionen, z. B. Echtzeit-Endpunkte für Inferenzen mit geringer Latenz, serverlose Endpunkte für vollständig verwaltete Infrastruktur und auto-scaling sowie asynchrone Endpunkte für Batches von Anfragen. Indem Sie die für Ihren Anwendungsfall geeignete Inferenzoption nutzen, können Sie eine effiziente Modellbereitstellung und Inferenz sicherstellen.

Auswahl eines Feature

Es gibt mehrere Anwendungsfälle für die Bereitstellung von ML-Modellen mit KI. SageMaker In diesem Abschnitt werden diese Anwendungsfälle sowie die SageMaker KI-Funktion beschrieben, die wir für jeden Anwendungsfall empfehlen.

Anwendungsfälle

Im Folgenden sind die wichtigsten Anwendungsfälle für den Einsatz von ML-Modellen mit SageMaker KI aufgeführt.

Anwendungsfall 1: Bereitstellen eines Machine-Learning-Modells in einer Low-Code- oder No-Code-Umgebung. Für Anfänger oder SageMaker KI-Neulinge können Sie vortrainierte Modelle mit Amazon SageMaker JumpStart über die Amazon SageMaker Studio-Oberfläche bereitstellen, ohne dass komplexe Konfigurationen erforderlich sind.
Anwendungsfall 2: Verwenden von Code, um Machine-Learning-Modelle mit mehr Flexibilität und Kontrolle bereitzustellen. Erfahrene ML-Praktiker können mithilfe der ModelBuilder Klasse im SageMaker KI-Python-SDK, die eine detaillierte Kontrolle über verschiedene Einstellungen wie Instanztypen, Netzwerkisolierung und Ressourcenzuweisung bietet, ihre eigenen Modelle mit benutzerdefinierten Einstellungen für ihre Anwendungsanforderungen bereitstellen.
Anwendungsfall 3: Implementieren von Machine-Learning-Modellen in großem Maßstab. Fortgeschrittene Benutzer und Unternehmen, die Modelle in der Produktion skalierbar verwalten möchten, können die AWS SDK für Python (Boto3) und CloudFormation zusammen mit der gewünschten Infrastructure as Code (IaC) und CI/CD Tools verwenden, um Ressourcen bereitzustellen und das Ressourcenmanagement zu automatisieren.

Empfohlene Features

In der folgenden Tabelle werden die wichtigsten Überlegungen und Kompromisse für SageMaker KI-Funktionen für jeden Anwendungsfall beschrieben.

	Anwendungsfall 1	Anwendungsfall 2	Anwendungsfall 3
SageMaker KI-Funktion	Verwenden Sie es JumpStart in Studio, um die Bereitstellung Ihres grundlegenden Modells zu beschleunigen.	Stellen Sie ModelBuilder Modelle mithilfe des SageMaker Python-SDK bereit.	Stellen Sie Modelle in großem Maßstab bereit und verwalten Sie sie mit CloudFormation.
Description	Verwenden Sie die Studio-Benutzeroberfläche, um vortrainierte Modelle aus einem Katalog für vorkonfigurierte Inferenzendpunkte bereitzustellen. Diese Option ist ideal für Citizen Data Scientists oder für alle, die ein Modell bereitstellen möchten, ohne komplexe Einstellungen konfigurieren zu müssen.	Verwenden Sie die `ModelBuilder` Klasse aus dem Amazon SageMaker AI Python SDK, um Ihr eigenes Modell bereitzustellen und Bereitstellungseinstellungen zu konfigurieren. Diese Option ist ideal für erfahrene Datenwissenschaftler oder für alle, die ihr eigenes Modell bereitstellen müssen und eine genaue Kontrolle benötigen.	Verwenden Sie CloudFormation und Infrastructure as Code (IaC) für die programmatische Steuerung und Automatisierung bei der Bereitstellung und Verwaltung von SageMaker KI-Modellen. Diese Option ist ideal für fortgeschrittene Benutzer, die konsistente und wiederholbare Bereitstellungen benötigen.
Optimiert für	schnelle und optimierte Bereitstellungen beliebter Open-Source-Modelle	die Bereitstellung Ihrer eigenen Modelle	die fortlaufende Verwaltung von Modellen in der Produktion
Überlegungen	Fehlende Anpassung an Container-Einstellungen und spezifische Anwendungsanforderungen	Keine Benutzeroberfläche; erfordert, dass Sie mit der Entwicklung und Wartung von Python-Code vertraut sind	Erfordert Infrastrukturmanagement und organisatorische Ressourcen sowie Vertrautheit mit den AWS SDK für Python (Boto3) oder mit Vorlagen. CloudFormation
Empfohlene Umgebung	Eine SageMaker KI-Domäne	Eine Python-Entwicklungsumgebung, die mit Ihren AWS Anmeldeinformationen konfiguriert ist und das SageMaker Python-SDK installiert ist, oder eine SageMaker AI-IDE wie SageMaker JupyterLab	DieAWS CLI, eine lokale Entwicklungsumgebung sowie Infrastructure as Code (IaC) und Tools CI/CD

Zusätzliche Optionen

SageMaker KI bietet verschiedene Optionen für Ihre Inferenz-Anwendungsfälle, sodass Sie die technische Breite und Tiefe Ihrer Implementierungen selbst bestimmen können:

Bereitstellen eines Modells auf einem Endpunkt Ziehen Sie bei der Bereitstellung Ihres Modells die folgenden Optionen in Betracht:
- Echtzeit-Inferenz. Inferenz in Echtzeit ist ideal für Inferenz-Workloads, bei denen interaktive Anforderungen mit geringer Latenz erfüllt werden müssen.
- Modelle mit Amazon SageMaker Serverless Inference bereitstellen. Verwenden Sie Serverless Inference, um Modelle bereitzustellen, ohne die zugrunde liegende Infrastruktur konfigurieren oder verwalten zu müssen. Diese Option ist ideal für Workloads, bei denen es zwischen den einzelnen Datenverkehrsspitzen Leerlaufzeiten gibt und die Kaltstarts tolerieren können.
- Asynchrone Inferenz-Inferenz. Stellt eingehende Anforderungen in eine Warteschlange und verarbeitet sie asynchron. Diese Option ist ideal für Anfragen mit großen Nutzlasten (bis zu 1 GB), langen Verarbeitungszeiten (bis zu einer Stunde) und Latenzanforderungen nahezu in Echtzeit.
Kostenoptimierung Ziehen Sie die folgenden Optionen in Betracht, um Ihre Inferenzkosten zu optimieren:
- Optimierung der Modellleistung mit SageMaker Neo. Verwenden Sie SageMaker Neo, um Ihre Machine-Learning-Modelle mit besserer Leistung und Effizienz zu optimieren und auszuführen. So können Sie die Rechenkosten minimieren, indem Sie Modelle automatisch für die Ausführung in Umgebungen wie AWS Inferentia-Chips optimieren.
- Automatische Skalierung von Amazon SageMaker AI-Modellen. Verwenden Sie Auto Scaling, um die Rechenressourcen für Ihre Endpunkte dynamisch an die Muster des eingehenden Datenverkehrs anzupassen. So können Sie Ihre Kosten optimieren, indem Sie nur für die Ressourcen bezahlen, die Sie zu einem bestimmten Zeitpunkt nutzen.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Hinweis zur Veröffentlichung

Modellbereitstellung