Préparation des données à l'aide de sessions AWS Glue interactives - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Préparation des données à l'aide de sessions AWS Glue interactives

Les sessions interactives AWS Glue sont un service sans serveur que vous pouvez utiliser pour collecter, transformer, nettoyer et préparer des données en vue de leur stockage dans vos lacs de données et vos pipelines de données. Les sessions interactives AWS Glue fournissent un environnement d’exécution Apache Spark à la demande et sans serveur que vous pouvez initialiser en quelques secondes sur une unité de traitement des données (DPU) dédiée sans avoir à provisionner et à gérer une infrastructure complexe de clusters de calcul. Après l'initialisation, vous pouvez parcourir le catalogue de AWS Glue données, exécuter des requêtes volumineuses, accéder aux données régies parAWS Lake Formation, analyser et préparer les données de manière interactive à l'aide de Spark, directement dans vos blocs-notes Studio ou Studio Classic. Vous pouvez ensuite utiliser les données préparées pour entraîner, ajuster et déployer des modèles à l'aide des outils de machine learning spécialement conçus dans SageMaker Studio ou Studio Classic. Vous devriez envisager des sessions AWS Glue interactives pour vos charges de travail de préparation des données lorsque vous souhaitez un service Spark sans serveur avec un contrôle modéré de la configurabilité et de la flexibilité.

Vous pouvez lancer une session AWS Glue interactive en démarrant un JupyterLab bloc-notes dans Studio ou Studio Classic. Lorsque vous démarrez votre bloc-notes, choisissez le noyau Glue PySpark and Ray ou Glue Spark intégré. Cela démarre automatiquement une session Spark interactive et sans serveur. Vous n’avez pas besoin de provisionner ni de gérer un cluster ou une infrastructure de calcul. Après l’initialisation, vous pouvez explorer vos données et interagir avec elles depuis vos blocs-notes Studio ou Studio Classic.

Avant de démarrer votre session AWS Glue interactive dans Studio ou Studio Classic, vous devez définir les rôles et les politiques appropriés. En outre, vous devrez peut-être fournir l’accès à des ressources supplémentaires, telles qu’un compartiment de stockage Amazon S3. Pour plus d’informations sur les politiques IAM requises, consultez Autorisations pour les sessions AWS Glue interactives dans Studio ou Studio Classic.

Studio et Studio Classic fournissent une configuration par défaut pour votre session AWS Glue interactive, mais vous pouvez utiliser AWS Glue le catalogue complet des commandes magiques de Jupyter pour personnaliser davantage votre environnement. Pour plus d'informations sur les magies Jupyter par défaut et supplémentaires que vous pouvez utiliser dans votre session AWS Glue interactive, consultez. Configuration de votre session AWS Glue interactive dans Studio ou Studio Classic

  • Les utilisateurs de Studio Classic qui lancent une session AWS Glue interactive peuvent choisir parmi les images et noyaux suivants :

    • Images : SparkAnalytics 1.0, SparkAnalytics 2.0

    • Noyau : Glue Python [PySpark and Ray] et Glue Spark

  • Pour les utilisateurs de Studio, utilisez l'image SageMaker de distribution par défaut et sélectionnez un Glue Python [PySpark and Ray] ou un Glue Spark noyau.