Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Préparation des données à l’aide d’EMR sans serveur
À partir de SageMaker la version d'image de distribution1.10, Amazon SageMaker Studio s'intègre à EMR Serverless. Dans les JupyterLab ordinateurs portables de SageMaker Studio, les data scientists et les ingénieurs de données peuvent découvrir des applications EMR Serverless et s'y connecter, puis explorer, visualiser et préparer de manière interactive des charges de travail Apache Spark ou Apache Hive à grande échelle. Cette intégration permet d’effectuer un prétraitement interactif des données à grande échelle en préparation de l’entraînement et du déploiement du modèle ML.
Plus précisément, la version mise à jour de la version d'image de distribution intégrée sagemaker-studio-analytics-extension1.10 tire parti de l'intégration entre Apache Livy et EMR Serverless, permettant ainsi la connexion à un point de terminaison Apache Livy via des ordinateurs portables. JupyterLab Cette section suppose une connaissance préalable des applications interactives EMR sans serveur.
Important
Lorsque vous utilisez Studio, vous pouvez uniquement découvrir et vous connecter aux applications EMR Serverless pour les JupyterLab applications lancées depuis des espaces privés. Assurez-vous que les applications EMR Serverless sont situées dans la même AWS région que votre environnement Studio.
Conditions préalables
Avant de commencer à exécuter des charges de travail interactives avec EMR Serverless depuis JupyterLab vos ordinateurs portables, assurez-vous de remplir les conditions préalables suivantes :
-
Votre JupyterLab espace doit utiliser une version image de SageMaker distribution
1.10ou supérieure. -
Créez une application interactive EMR sans serveur avec Amazon EMR version
6.14.0ou supérieure. Vous pouvez créer une application EMR sans serveur à partir de l’interface utilisateur de Studio en suivant les étapes décrites dans Création d’applications EMR sans serveur depuis Studio.Note
Pour simplifier la configuration, vous pouvez créer votre application EMR sans serveur dans l’interface utilisateur de Studio sans modifier les paramètres par défaut de l’option Cloud privé virtuel (VPC). Cela permet de créer l’application au sein de votre VPC de domaine sans nécessiter de configuration réseau. Dans ce cas, vous pouvez ignorer l’étape de configuration de mise en réseau suivante.
-
Passez en revue les exigences de mise en réseau et de sécurité dans Configuration de l’accès réseau pour votre cluster Amazon EMR. En particulier, vérifiez que vous :
-
Établissez une connexion d’appairage de VPC entre votre compte Studio et votre compte EMR sans serveur.
-
Ajoutez des routes aux tables de routage des sous-réseaux privés dans les deux comptes.
-
Configurez le groupe de sécurité attaché à votre domaine Studio pour autoriser le trafic sortant et configurez le groupe de sécurité du VPC où vous envisagez d’exécuter les applications EMR sans serveur pour autoriser le trafic TCP entrant depuis le groupe de sécurité de l’instance Studio.
-
-
Pour accéder à vos applications interactives sur EMR Serverless et exécuter des charges de travail soumises depuis vos JupyterLab blocs-notes dans SageMaker Studio, vous devez attribuer des autorisations et des rôles spécifiques. Reportez-vous à la section Configurez les autorisations pour activer la mise en vente et le lancement des applications Amazon EMR depuis Studio SageMaker pour obtenir des détails sur les rôles et autorisations nécessaires.