Préparation des données à l'aide AWS Glue sessions interactives

Les sessions interactives AWS Glue sont un service sans serveur que vous pouvez utiliser pour collecter, transformer, nettoyer et préparer des données en vue de leur stockage dans vos lacs de données et vos pipelines de données. Les sessions interactives AWS Glue fournissent un environnement d’exécution Apache Spark à la demande et sans serveur que vous pouvez initialiser en quelques secondes sur une unité de traitement des données (DPU) dédiée sans avoir à provisionner et à gérer une infrastructure complexe de clusters de calcul. Après l'initialisation, vous pouvez parcourir le catalogue de AWS Glue données, exécuter des requêtes volumineuses, accéder aux données régies par AWS Lake Formation, analyser et préparer les données de manière interactive à l'aide de Spark, directement dans vos blocs-notes Studio ou Studio Classic. Vous pouvez ensuite utiliser les données préparées pour entraîner, ajuster et déployer des modèles à l'aide des outils de machine learning spécialement conçus dans SageMaker Studio ou Studio Classic. Vous devriez envisager des sessions AWS Glue interactives pour vos charges de travail de préparation des données lorsque vous souhaitez un service Spark sans serveur avec un contrôle modéré de la configurabilité et de la flexibilité.

Vous pouvez lancer une session AWS Glue interactive en démarrant un JupyterLab bloc-notes dans Studio ou Studio Classic. Lorsque vous démarrez votre bloc-notes, choisissez le noyau Glue PySpark and Ray ou Glue Spark intégré. Cela démarre automatiquement une session Spark interactive et sans serveur. Vous n’avez pas besoin de provisionner ni de gérer un cluster ou une infrastructure de calcul. Après l’initialisation, vous pouvez explorer vos données et interagir avec elles depuis vos blocs-notes Studio ou Studio Classic.

Avant de démarrer votre session AWS Glue interactive dans Studio ou Studio Classic, vous devez définir les rôles et les politiques appropriés. En outre, vous devrez peut-être fournir l’accès à des ressources supplémentaires, telles qu’un compartiment de stockage Amazon S3. Pour plus d’informations sur les politiques IAM requises, consultez Autorisations pour AWS Glue sessions interactives dans Studio ou Studio Classic.

Studio et Studio Classic fournissent une configuration par défaut pour votre session AWS Glue interactive, mais vous pouvez utiliser AWS Glue le catalogue complet des commandes magiques de Jupyter pour personnaliser davantage votre environnement. Pour plus d'informations sur les magies Jupyter par défaut et supplémentaires que vous pouvez utiliser dans votre session AWS Glue interactive, consultez. Configurez votre AWS Glue session interactive dans Studio ou Studio Classic

Les utilisateurs de Studio Classic qui lancent une session AWS Glue interactive peuvent choisir parmi les images et les noyaux suivants :
- Images : SparkAnalytics 1.0, SparkAnalytics 2.0
- Noyau : Glue Python [PySpark and Ray] et Glue Spark
Pour les utilisateurs de Studio, utilisez l'image SageMaker de distribution par défaut et sélectionnez un Glue Python [PySpark and Ray] ou un Glue Spark noyau.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Résolution des problèmes

Commencez par des sessions AWS Glue interactives