Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Connectez-vous à un cluster Amazon EMR depuis SageMaker Studio ou Studio Classic
Les scientifiques des données et les ingénieurs de données peuvent découvrir un cluster Amazon EMR et s’y connecter directement depuis l’interface utilisateur de Studio. Avant de commencer, assurez-vous d’avoir configuré les autorisations nécessaires, comme décrit dans la section Étape 4 : Configuration des autorisations pour activer l’établissement d’une liste et le lancement des clusters Amazon EMR à partir de Studio. Ces autorisations permettent à Studio de créer, démarrer, afficher et résilier les clusters, ainsi que d’y accéder.
Vous pouvez connecter un cluster Amazon EMR à un nouveau JupyterLab bloc-notes directement depuis l'interface utilisateur de Studio, ou choisir d'établir la connexion dans le bloc-notes d'une application en cours d'exécution JupyterLab .
Important
Vous pouvez uniquement découvrir et vous connecter aux clusters Amazon EMR JupyterLab et aux applications Studio Classic lancées depuis des espaces privés. Assurez-vous que les clusters Amazon EMR sont situés dans la même AWS région que votre environnement Studio. Votre JupyterLab espace doit utiliser une version image de SageMaker distribution 1.10 ou supérieure.
Connexion à un cluster Amazon EMR à l’aide de l’interface utilisateur de Studio
Pour vous connecter à votre cluster à l'aide de l'interface utilisateur de Studio ou de Studio Classic, vous pouvez établir une connexion à partir de la liste des clusters auxquels vous accédez ou à partir d'un bloc-notes dans SageMaker Studio ou Studio Classic. Établissement de la liste des clusters Amazon EMR depuis Studio ou Studio Classic
Pour connecter un cluster Amazon EMR à un nouveau JupyterLab bloc-notes depuis l'interface utilisateur de Studio :
-
Dans le panneau de gauche de l’interface utilisateur de Studio, sélectionnez le nœud Données dans le menu de navigation de gauche. Accédez à Applications et clusters Amazon EMR. Une page s’ouvre répertoriant les clusters Amazon EMR auxquels vous pouvez accéder depuis Studio dans l’onglet Clusters Amazon EMR.
Note
Si vous ou votre administrateur avez configuré les autorisations pour autoriser l’accès intercompte aux clusters Amazon EMR, vous pouvez visualiser une liste consolidée des clusters pour tous les comptes auxquels vous avez accordé l’accès à Studio.
-
Sélectionnez un cluster Amazon EMR que vous souhaitez connecter à un nouveau bloc-notes, puis choisissez Attacher à un bloc-notes. Cela ouvre une fenêtre modale affichant la liste de vos JupyterLab espaces.
-
-
Sélectionnez l'espace à partir duquel vous souhaitez lancer une JupyterLab application, puis choisissez Ouvrir le bloc-notes. Cela lance une JupyterLab application depuis l'espace que vous avez choisi et ouvre un nouveau bloc-notes.
Note
Les utilisateurs de Studio Classic doivent sélectionner une image et un noyau. Pour obtenir la liste des images prises en charge, consultez Images et noyaux pris en charge pour se connecter à un cluster Amazon EMR depuis Studio ou Studio Classic ou référez-vous à Apporter votre propre image.
-
Vous pouvez également créer un nouvel espace privé en choisissant le bouton Créer un nouvel espace en haut de la fenêtre modale. Entrez un nom pour votre espace, puis choisissez Créer l’espace et ouvrir le bloc-notes. Cela crée un espace privé avec le type d'instance par défaut et SageMaker la dernière image de distribution disponible, lance une JupyterLab application et ouvre un nouveau bloc-notes.
-
-
Si le cluster que vous sélectionnez n’utilise pas Kerberos, LDAP ou l’authentification par rôle d’exécution, Studio vous invite à sélectionner le type d’informations d’identification. Choisissez entre Authentification de base HTTP ou Aucune information d’identification, puis entrez vos informations d’identification, le cas échéant.
Si le cluster que vous sélectionnez prend en charge les rôles d’exécution, choisissez le nom du rôle IAM que votre cluster Amazon EMR peut assumer pour l’exécution de la tâche.
Important
Pour connecter correctement un JupyterLab bloc-notes à un cluster Amazon EMR prenant en charge les rôles d'exécution, vous devez d'abord associer la liste des rôles d'exécution à votre domaine ou à votre profil utilisateur, comme indiqué dans. Configuration des rôles d’exécution IAM pour l’accès aux clusters Amazon EMR dans Studio Si vous n’effectuez pas cette étape, vous ne pourrez pas établir la connexion.
Après sélection, une commande de connexion remplit la première cellule de votre bloc-notes et initie la connexion avec le cluster Amazon EMR.
Une fois la connexion établie, un message confirme la connexion et le démarrage de l’application Spark.
Vous pouvez également vous connecter à un cluster à partir d'un bloc-notes JupyterLab ou d'un bloc-notes Studio Classic.
-
Choisissez le bouton Cluster en haut de votre bloc-notes. Une fenêtre modale s’ouvre répertoriant les clusters Amazon EMR dans un état
Runningauquel vous pouvez accéder. Vous pouvez voir les clusters Amazon EMRRunningdans l’onglet Clusters Amazon EMR.Note
Pour les utilisateurs de Studio Classic, Cluster n’est visible que lorsque vous utilisez un noyau depuis Images et noyaux pris en charge pour se connecter à un cluster Amazon EMR depuis Studio ou Studio Classic ou Apporter votre propre image. Si vous ne voyez pas Cluster en haut de votre bloc-notes, assurez-vous que votre administrateur a configuré la découvrabilité de vos clusters et passez à un noyau compatible.
-
Sélectionnez le cluster auquel vous souhaitez vous connecter, puis choisissez Connecter.
-
Si vous avez configuré vos clusters Amazon EMR pour prendre en charge les rôles IAM d’exécution, vous pouvez sélectionner votre rôle dans le menu déroulant Rôle d’exécution Amazon EMR.
Important
Pour connecter correctement un JupyterLab bloc-notes à un cluster Amazon EMR prenant en charge les rôles d'exécution, vous devez d'abord associer la liste des rôles d'exécution à votre domaine ou à votre profil utilisateur, comme indiqué dans. Configuration des rôles d’exécution IAM pour l’accès aux clusters Amazon EMR dans Studio Si vous n’effectuez pas cette étape, vous ne pourrez pas établir la connexion.
Sinon, si le cluster que vous choisissez n’utilise pas Kerberos, LDAP ou l’authentification par rôle d’exécution, Studio ou Studio Classic vous invite à sélectionner le type d’informations d’identification. Vous pouvez sélectionner Authentification de base HTTP ou Pas d’informations d’identification.
-
Studio ajoute puis exécute un bloc de code dans une cellule active pour établir la connexion. Cette cellule contient la commande magique de connexion permettant de connecter votre bloc-notes à votre application en fonction de votre type d’authentification.
Une fois la connexion établie, un message confirme la connexion et le démarrage de l’application Spark.
Connexion à un cluster Amazon EMR à l’aide d’une commande de connexion
Pour établir une connexion à un cluster Amazon EMR, vous pouvez exécuter des commandes de connexion dans une cellule de bloc-notes.
Lorsque vous établissez la connexion, vous pouvez vous authentifier à l’aide de Kerberos, du protocole LDAP (Lightweight Directory Access Protocol) ou d’une authentification par rôle IAM à l’exécution. La méthode d’authentification que vous choisissez dépend de la configuration de votre cluster.
Vous pouvez vous référer à cet exemple Access Apache Livy using a Network Load Balancer on a Kerberos-enabled Amazon EMR cluster
Si votre administrateur a activé l'accès entre comptes, vous pouvez vous connecter à votre cluster Amazon EMR depuis un bloc-notes Studio Classic, que votre application Studio Classic et votre cluster résident sur le AWS même compte ou sur des comptes différents.
Pour chacun des types d’authentification suivants, utilisez la commande spécifiée pour vous connecter à votre cluster depuis votre bloc-notes Studio ou Studio Classic.
-
Kerberos
Ajoutez l’argument
--assumable-role-arnsi vous avez besoin d’un accès Amazon EMR entre comptes. Ajoutez l’argument--verify-certificatesi vous vous connectez à votre cluster via HTTPS.%load_ext sagemaker_studio_analytics_extension.magics %sm_analytics emr connect --cluster-idcluster_id\ --auth-type Kerberos --language python [--assumable-role-arnEMR_access_role_ARN] [--verify-certificate/home/user/certificateKey.pem] -
LDAP
Ajoutez l’argument
--assumable-role-arnsi vous avez besoin d’un accès Amazon EMR entre comptes. Ajoutez l’argument--verify-certificatesi vous vous connectez à votre cluster via HTTPS.%load_ext sagemaker_studio_analytics_extension.magics %sm_analytics emr connect --cluster-idcluster_id\ --auth-type Basic_Access --language python [--assumable-role-arnEMR_access_role_ARN] [--verify-certificate/home/user/certificateKey.pem] -
NoAuth
Ajoutez l’argument
--assumable-role-arnsi vous avez besoin d’un accès Amazon EMR entre comptes. Ajoutez l’argument--verify-certificatesi vous vous connectez à votre cluster via HTTPS.%load_ext sagemaker_studio_analytics_extension.magics %sm_analytics emr connect --cluster-idcluster_id\ --auth-type None --language python [--assumable-role-arnEMR_access_role_ARN] [--verify-certificate/home/user/certificateKey.pem] -
Rôles IAM d'exécution
Ajoutez l'argument
--assumable-role-arnsi vous avez besoin d'un accès Amazon EMR entre comptes. Ajoutez l'argument--verify-certificatesi vous vous connectez à votre cluster via HTTPS.Pour plus d'informations sur la connexion à un cluster Amazon EMR à l'aide de rôles IAM d'exécution, consultez Configuration des rôles d’exécution IAM pour l’accès aux clusters Amazon EMR dans Studio .
%load_ext sagemaker_studio_analytics_extension.magics %sm_analytics emr connect --cluster-idcluster_id\ --auth-type Basic_Access \ --emr-execution-role-arn arn:aws:iam::studio_account_id:role/emr-execution-role-name[--assumable-role-arnEMR_access_role_ARN] [--verify-certificate/home/user/certificateKey.pem]
Connexion à un cluster Amazon EMR via HTTPS
Si vous avez configuré votre cluster Amazon EMR avec le chiffrement en transit activé et le serveur Apache Livy pour HTTPS et que vous souhaitez que Studio ou Studio Classic communique avec Amazon EMR via HTTPS, vous devez configurer Studio ou Studio Classic pour accéder à votre clé de certificat.
Pour les certificats autosignés ou signés par l’autorité de certification (CA) locale, vous pouvez procéder en deux étapes :
-
Téléchargez le fichier PEM de votre certificat sur votre système de fichiers local à l'aide de l'une des options suivantes :
-
Fonction de téléchargement de fichiers intégrée à Jupyter.
-
Cellule de bloc-notes.
-
(Pour les utilisateurs de Studio Classic uniquement) Script de configuration de cycle de vie (LCC).
Pour en savoir plus sur l’utilisation d’un script LCC, consultez Personnalisation d’une instance de bloc-notes à l’aide d’un script de configuration du cycle de vie.
-
-
Activez la validation du certificat en fournissant le chemin d'accès à votre certificat dans l'argument
--verify-certificatede votre commande de connexion.%sm_analytics emr connect --cluster-idcluster_id\ --verify-certificate/home/user/certificateKey.pem...
Pour les certificats publics émis par une autorité de certification, définissez la validation du certificat en définissant le paramètre --verify-certificate comme true.
Vous pouvez également désactiver la validation du certificat en définissant le paramètre --verify-certificate comme false.
Vous pouvez trouver la liste des commandes de connexion disponibles pour un cluster Amazon EMR dans Connexion à un cluster Amazon EMR à l’aide d’une commande de connexion.