Daten vorbereiten mit EMR Serverless - Amazon SageMaker AI

Daten vorbereiten mit EMR Serverless

Ab der Image-Version 1.10 der SageMaker-Distribution lässt sich Amazon SageMaker Studio in EMR Serverless integrieren. In JupyterLab-Notebooks in SageMaker Studio können Datenwissenschaftler und Dateningenieure serverlose EMR-Anwendungen auffinden und eine Verbindung zu ihnen herstellen und anschließend umfangreiche Apache Spark- oder Apache Hive-Workloads interaktiv untersuchen, visualisieren und vorbereiten. Diese Integration ermöglicht die Durchführung einer interaktiven Datenvorverarbeitung in großem Maßstab als Vorbereitung für das Training und die Bereitstellung von ML-Modellen.

Insbesondere die aktualisierte Version der sagemaker-studio-analytics-extensionin der SageMaker AI-Distribution enthaltenen Image-Version 1.10 nutzt die Integration zwischen Apache Livy und EMR Serverless und ermöglicht die Verbindung zu einem Apache Livy-Endpunkt über JupyterLab-Notebooks. In diesem Abschnitt werden Vorkenntnisse über interaktive EMR-Anwendungen ohne Server vorausgesetzt.

Wichtig

Wenn Sie Studio verwenden, können Sie nur EMR-Serverless-Anwendungen für JupyterLab-Anwendungen erkennen und eine Verbindung zu diesen herstellen, die von privaten Bereichen aus gestartet werden. Stellen Sie sicher, dass sich die EMR Serverless-Anwendungen in derselben AWS Region wie Ihre Studio-Umgebung befinden.

Voraussetzungen

Bevor Sie beginnen, interaktive Workloads mit EMR Serverless von Ihren JupyterLab-Notebooks aus auszuführen, sollten Sie sicherstellen, dass Sie die folgenden Voraussetzungen erfüllen:

  1. Ihr JupyterLab-Bereich muss eine Image-Version der SageMaker Distribution oder höher verwenden. 1.10

  2. Erstellen Sie eine interaktive EMR-Anwendung ohne Server mit Amazon EMR-Version 6.14.0 oder höher. Sie können eine serverlose EMR-Anwendung über die Studio-Benutzeroberfläche erstellen, indem Sie die Schritte unter befolgen. Erstellen Sie Serverless-Anwendungen aus Studio

    Anmerkung

    Für die einfachste Einrichtung können Sie Ihre EMR Serverless-Anwendung in der Studio-Benutzeroberfläche erstellen, ohne die Standardeinstellungen für die Virtual Private Cloud (VPC) -Option zu ändern. Dadurch kann die Anwendung innerhalb Ihrer Domain-VPC erstellt werden, ohne dass eine Netzwerkkonfiguration erforderlich ist. In diesem Fall können Sie den folgenden Netzwerk-Setup-Schritt überspringen.

  3. Lesen Sie die Netzwerk- und Sicherheitsanforderungen unterKonfigurieren Sie den Netzwerkzugriff für Ihren Amazon-EMR-Cluster. Stellen Sie insbesondere sicher, dass Sie:

    • Stellen Sie eine VPC-Peering-Verbindung zwischen Ihrem Studio-Konto und Ihrem EMR Serverless-Konto her.

    • Fügen Sie den Routing-Tabellen für private Subnetze in beiden Konten Routen hinzu.

    • Richten Sie die mit Ihrer Studio-Domain verbundene Sicherheitsgruppe ein, um ausgehenden Datenverkehr zuzulassen, und konfigurieren Sie die Sicherheitsgruppe der VPC, in der Sie die EMR-Serverless-Anwendungen ausführen möchten, so, dass eingehender TCP-Datenverkehr von der Sicherheitsgruppe der Studio-Instance zugelassen wird.

  4. Um auf Ihre interaktiven Anwendungen auf EMR Serverless zuzugreifen und Workloads auszuführen, die von Ihren JupyterLab-Notebooks in SageMaker Studio eingereicht wurden, müssen Sie bestimmte Berechtigungen und Rollen zuweisen. Einzelheiten zu den erforderlichen Rollen und Berechtigungen finden Sie im Richten Sie die Berechtigungen ein, um das Auflisten und Starten von Amazon EMR-Anwendungen von SageMaker Studio aus zu ermöglichen Abschnitt.