Beispiel-Notebooks für Amazon SageMaker Autopilot - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Beispiel-Notebooks für Amazon SageMaker Autopilot

Die folgenden Notebooks dienen als praktische Beispiele für verschiedene Anwendungsfälle von Autopilot.

Sie finden alle Notebooks von Autopilot im autopilot Verzeichnis des GitHub-Beispiel-Repositorys von SageMaker AI.

Wir empfehlen, das vollständige Git-Repository in Studio Classic zu klonen, um direkt auf die Notebooks zuzugreifen und sie auszuführen. Informationen zum Klonen eines Git-Repositorys in Studio Classic finden Sie unter Klonen Sie ein Git-Repository in Amazon SageMaker Studio Classic.

Anwendungsfall Beschreibung
Serverlose Inferenz

Standardmäßig ermöglicht Autopilot die Bereitstellung generierter Modelle für Inferenzendpunkte in Echtzeit. In diesem Repository wird in diesem Notebook veranschaulicht, wie Autopilot-Modelle, die mit ENSEMBLING und HYPERPARAMETER OPTIMIZATION (HPO) Modi trainiert wurden, auf serverlosen Endpunkten eingesetzt werden können. Serverlose Endgeräte starten automatisch Rechenressourcen und skalieren sie je nach Datenverkehr ein- und auswärts, sodass Sie keine Instance-Typen auswählen oder Skalierungsrichtlinien verwalten müssen.

Auswahl benutzerdefinierter Funktionen

Der Autopilot überprüft Ihren Datensatz und führt eine Reihe von Kandidaten durch, um die optimale Kombination aus Datenvorverarbeitungsschritten, Algorithmen für Machine Learning und Hyperparametern zu ermitteln. Sie können die Lösung problemlos entweder auf einem Echtzeit-Endpunkt oder für die Batch-Verarbeitung bereitstellen.

In einigen Fällen ist es möglicherweise erforderlich, benutzerdefinierten Datenverarbeitungscode für Autopilot bereitzustellen. Beispielsweise könnten Ihre Datensätze eine große Anzahl unabhängiger Variablen enthalten, und Sie möchten möglicherweise zuerst einen Schritt zur benutzerdefinierten Feature-Auswahl einbauen, um irrelevante Variablen zu entfernen. Der resultierende kleinere Datensatz kann dann verwendet werden, um einen Autopilotauftrag zu starten. Letztlich sollten Sie auch sowohl den benutzerdefinierten Verarbeitungscode als auch Modelle von Autopilot für die Echtzeit- oder Batch-Verarbeitung einbeziehen.

Beispiel für eine Pipeline

Während Autopilot den Prozess der Erstellung von ML-Modellen rationalisiert, sind die MLOpS-Ingenieure weiterhin für die Erstellung, Automatisierung und Verwaltung durchgängiger ML-Workflows in der Produktion verantwortlich. SageMaker Pipelines können bei der Automatisierung verschiedener Schritte des ML-Lebenszyklus helfen, z. B. Datenvorverarbeitung, Modelltraining, Hyperparameter-Tuning, Modellevaluierung und Bereitstellung. Dieses Notebook dient als Demonstration, wie Autopilot in einen durchgängigen AutoML-Trainingsworkflow von SageMaker Pipelines integriert werden kann. Um ein Autopilot-Experiment in Pipelines zu starten, müssen Sie einen Workflow zur Modellerstellung erstellen, indem Sie mithilfe von Pipelines Lambda oder Prozessiereung Steps benutzerdefinierten Integrationscode schreiben. Weitere Informationen finden Sie unter Amazon SageMaker Autopilot ML-Modelle mithilfe von Amazon SageMaker Pipelines vom Experimentieren zur Produktion bewegen.

Wenn Sie Autopilot im Ensembling-Modus verwenden, können Sie alternativ das Notebook-Beispiel verwenden, das die Verwendung des nativen AutoML-Schritts in der SageMaker Pipeline demonstriert. Da Autopilot als systemeigener Schritt in Pipelines unterstützt wird, können Sie Ihren Pipelines jetzt einen automatisierten Trainingsschritt (AutoMLStep) hinzufügen und ein Autopilot-Experiment im Ensembling-Modus aufrufen.

Direktmarketing mit Amazon SageMaker Autopilot

Dieses Notebook zeigt, wie der Bank-Marketing-Datensatz verwendet wird, um vorherzusagen, ob sich ein Kunde für eine Termineinlage bei einer Bank anmelden wird. Sie können Autopilot für diesen Datensatz verwenden, um die genaueste ML-Pipeline zu erhalten, indem Sie die Optionen verschiedener Kandidaten-Pipelines untersuchen. Autopilot generiert jeden Kandidaten in einem zweistufigen Verfahren. Im ersten Schritt wird das automatisierte Feature Engineering für den Datensatz durchgeführt. Der zweite Schritt trainiert und optimiert einen Algorithmus, um ein Modell zu erzeugen. Das Notebook enthält Anweisungen zum Trainieren des Modells und zum Einsatz des Modells, um eine Batch-Inferenz mit dem besten Kandidaten durchzuführen.

Prognose der Kundenabwanderung mit Amazon SageMaker Autopilot

Dieses Notebook beschreibt die Verwendung von Machine Learning zur automatisierten Identifizierung unglücklicher Kunden, auch bekannt als Kundenabwanderungsprognose. Das Beispiel zeigt, wie man einen öffentlich zugänglichen Datensatz analysiert und darauf ein Feature Engineering durchführt. Als Nächstes wird gezeigt, wie ein Modell optimiert wird, indem die Pipeline mit der besten Leistung zusammen mit den optimalen Hyperparametern für den Trainingsalgorithmus ausgewählt wird. Schließlich wird gezeigt, wie das Modell auf einem gehosteten Endpunkt eingesetzt wird und wie seine Vorhersagen im Vergleich zur Ground Truth bewertet werden können. ML-Modelle liefern jedoch selten perfekte Vorhersagen. Deshalb zeigt dieses Notebook auch, wie man die relativen Kosten von Prognosefehlern bei der Ermittlung des finanziellen Ergebnisses des Einsatzes von ML einbeziehen kann.

Prognose der Top-Kandidaten für die Kundenabwanderung mit Amazon SageMaker Autopilot und Batch Transform (Python SDK)

Dieses Notebook beschreibt auch die Verwendung von Machine Learning zur automatisierten Identifizierung unglücklicher Kunden, auch bekannt als Kundenabwanderungsprognose. In diesem Notebook wird gezeigt, wie das Modell konfiguriert wird, um die Inferenzwahrscheinlichkeit zu ermitteln, die Top-N-Modelle auszuwählen und eine Batch-Transformation an einem Hold-Out-Testset zur Auswertung durchzuführen.

Anmerkung

Dieses Notebook funktioniert mit dem SageMaker Python SDK >= 1.65.1, das am 19.06.2020 veröffentlicht wurde.

Den eigenen Datenverarbeitungscode in Amazon SageMaker Autopilot verwenden

Dieses Notebook zeigt, wie Sie benutzerdefinierten Datenverarbeitungscode integrieren und bereitstellen, wenn Sie Amazon SageMaker Autopilot verwenden. Es fügt einen Schritt zur benutzerdefinierten Funktionsauswahl hinzu, um irrelevante Variablen zu einem Autopilot-Job zu entfernen. Anschließend wird gezeigt, wie sowohl der benutzerdefinierte Verarbeitungscode als auch die vom Autopilot generierten Modelle auf einem Echtzeit-Endpunkt und alternativ für die Stapelverarbeitung bereitgestellt werden.

Mehr Notebooks

Weitere Notebooks, die andere Anwendungsfälle wie Batch-Transformation, Zeitreihenprognosen und mehr veranschaulichen, finden Sie im Stammverzeichnis.