Datenaufbereitung mithilfe interaktiver Sitzungen AWS Glue - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Datenaufbereitung mithilfe interaktiver Sitzungen AWS Glue

AWS GlueInteractive Sessions ist ein serverloser Service, den Sie nutzen können, um Daten zu sammeln, zu transformieren, zu bereinigen und für die Speicherung in Ihren Data Lakes und Daten-Pipelines vorzubereiten. AWS GlueInteractive Sessions bietet eine serverlose Apache Spark-Laufzeitumgebung auf Abruf, die Sie in Sekundenschnelle auf einer dedizierten Datenverarbeitungseinheit (DPU) initialisieren können, ohne eine komplexe Rechencluster-Infrastruktur bereitstellen und verwalten zu müssen. Nach der Initialisierung können Sie direkt in Ihren Studio- oder Studio Classic-Notizbüchern den AWS Glue Datenkatalog durchsuchen, umfangreiche Abfragen ausführenAWS Lake Formation, auf Daten zugreifen, die von Spark gesteuert werden, und Daten interaktiv analysieren und aufbereiten. Anschließend können Sie die vorbereiteten Daten verwenden, um Modelle mithilfe der speziell entwickelten ML-Tools in SageMaker Studio oder Studio Classic zu trainieren, zu optimieren und bereitzustellen. Sie sollten AWS Glue Interactive Sessions für Ihre Datenvorbereitungs-Workloads in Betracht ziehen, wenn Sie einen serverlosen Spark-Dienst mit moderater Kontrolle über Konfigurierbarkeit und Flexibilität wünschen.

Sie können eine AWS Glue interaktive Sitzung initiieren, indem Sie ein JupyterLab Notizbuch in Studio oder Studio Classic starten. Wählen Sie beim Starten Ihres Notebooks den integrierten Glue PySpark and Ray- oder Glue Spark-Kernel. Dadurch wird automatisch eine interaktive, serverless Spark-Sitzung gestartet. Sie müssen keinen Rechencluster oder keine Infrastruktur bereitstellen oder verwalten. Nach der Initialisierung können Sie Ihre Daten von Ihren Studio- oder Studio Classic-Notebooks aus untersuchen und mit ihnen interagieren.

Bevor Sie Ihre AWS Glue interaktive Sitzung in Studio oder Studio Classic starten, müssen Sie die entsprechenden Rollen und Richtlinien festlegen. Darüber hinaus müssen Sie möglicherweise Zugriff auf zusätzliche Ressourcen bereitstellen, wie z. B. einen Amazon S3-Speicherbucket. Weitere Informationen über erforderliche IAM-Richtlinien finden Sie unter Berechtigungen für AWS Glue interaktive Sitzungen in Studio oder Studio Classic.

Studio und Studio Classic bieten eine Standardkonfiguration für Ihre AWS Glue interaktive Sitzung. Sie können jedoch den vollständigen Katalog der magischen Jupyter-Befehle verwendenAWS Glue, um Ihre Umgebung weiter anzupassen. Informationen zu den standardmäßigen und zusätzlichen Jupyter-Magics, die Sie in Ihrer interaktiven Sitzung verwenden können, finden Sie unter. AWS Glue Konfigurieren Sie Ihre AWS Glue interaktive Sitzung in Studio oder Studio Classic

  • Studio Classic-Benutzer, die eine AWS Glue interaktive Sitzung initiieren, können aus den folgenden Bildern und Kerneln wählen:

    • Images: SparkAnalytics 1.0, SparkAnalytics 2.0

    • Kernel: und Glue Python [PySpark and Ray] Glue Spark

  • Verwenden Sie für Studio-Benutzer das SageMaker Standard-Distribution-Image und wählen Sie einen Glue Python [PySpark and Ray] oder einen Glue Spark Kernel aus.