Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Caractéristiques, exigences et limites d'EMR Studio
Cette rubrique inclut les éléments à prendre en compte lors de l'utilisation d'Amazon EMR Studio, notamment les considérations relatives aux régions et aux outils, aux exigences du cluster et aux limitations techniques.
Considérations
Lorsque vous travaillez avec EMR Studio, tenez compte des facteurs suivants :
-
EMR Studio est disponible dans les versions suivantes : Régions AWS
-
USA Est (Ohio) (us-east-2)
-
USA Est (Virginie du Nord) (us-east-1)
-
USA Ouest (Californie du Nord) (us-west-1)
-
USA Ouest (Oregon) (us-west-2)
-
Afrique (Le Cap) (af-south-1)
-
Asie-Pacifique (Hong Kong) (ap-east-1)
-
Asie-Pacifique (Jakarta) (ap-southeast-3) *
-
Asie-Pacifique (Melbourne) (ap-southeast-4) *
-
Asie-Pacifique (Mumbai) (ap-south-1)
-
Asie-Pacifique (Osaka) (ap-northeast-3) *
-
Asie-Pacifique (Séoul) (ap-northeast-2)
-
Asie-Pacifique (Singapour) (ap-southeast-1)
-
Asie-Pacifique (Sydney) (ap-southeast-2)
-
Asie-Pacifique (Tokyo) (ap-northeast-1)
-
Canada (Centre) (ca-central-1)
-
Europe (Francfort) (eu-central-1)
-
Europe (Irlande) (eu-west-1)
-
Europe (Londres) (eu-west-2)
-
Europe (Milan) (eu-south-1)
-
Europe (Paris) (eu-west-3)
-
Europe (Espagne) (eu-south-2)
-
Europe (Stockholm) (eu-north-1)
-
Europe (Zurich) (eu-central-2) *
-
Israël (Tel Aviv) (il-central-1) *
-
Moyen-Orient (Émirats arabes unis) (me-central-1) *
-
Amérique du Sud (São Paulo) (sa-east-1)
-
AWS GovCloud (USA Est) (gov-us-east-1)
-
AWS GovCloud (US-Ouest) (gov-us-west-1)
* L'interface utilisateur Live de Spark n'est pas prise en charge dans ces régions.
-
-
Pour permettre aux utilisateurs de provisionner de nouveaux clusters EMR exécutés sur Amazon EC2 pour un espace de travail, vous pouvez associer un studio EMR à un ensemble de modèles de clusters. Les administrateurs peuvent définir des modèles de clusters avec Service Catalog et choisir si un utilisateur ou un groupe peut accéder aux modèles de clusters ou non dans un studio.
-
Lorsque vous définissez des autorisations d'accès aux fichiers de bloc-notes stockés dans Amazon S3 ou que vous en lisez des secrets AWS Secrets Manager, utilisez le rôle de service Amazon EMR. Les politiques de session ne sont pas prises en charge avec ces autorisations.
-
Vous pouvez créer plusieurs studios EMR pour contrôler l'accès aux clusters EMR de différentes manières. VPCs
-
Utilisez le AWS CLI pour configurer Amazon EMR sur des clusters EKS. Vous pouvez ensuite utiliser l'interface Studio pour rattacher des clusters à des Workspaces avec un point de terminaison géré afin d'exécuter des tâches liées aux blocs-notes.
-
D’autres considérations s’appliquent à EMR Studio lorsque vous utilisez la propagation d’identité approuvée avec Amazon EMR. Pour de plus amples informations, veuillez consulter Considérations et limitations relatives à l’intégration d’Amazon EMR à Identity Center.
-
EMR Studio ne prend pas en charge les commandes magiques suivantes en Python :
-
%alias
-
%alias_magic
-
%automagic
-
%macro
-
%%js
-
%%javascript
-
Modification de
proxy_user
à l'aide de%configure
-
Modification de
KERNEL_USERNAME
à l'aide de%env
ou%set_env
-
-
Amazon EMR sur les clusters EKS ne prend pas en charge SparkMagic les commandes pour EMR Studio.
-
Pour écrire des instructions Scala multilignes dans des cellules du bloc-notes, assurez-vous que toutes les lignes, sauf la dernière, se terminent par un point. L'exemple suivant utilise la syntaxe correcte pour les instructions Scala multilignes.
val df = spark.sql("SELECT * from table_name). filter("col1=='value'"). limit(50)
Pour renforcer la sécurité des applications hors console que vous pouvez utiliser avec Amazon EMR, les domaines hébergeant les applications sont enregistrés dans la liste des suffixes publics (PSL). Voici des exemples de ces domaines d’hébergement :
emrstudio-prod.us-east-1.amazonaws.com
,emrnotebooks-prod.us-east-1.amazonaws.com
,emrappui-prod.us-east-1.amazonaws.com
. Pour plus de sécurité, si vous avez besoin de définir des cookies sensibles dans le nom de domaine par défaut, nous vous recommandons d’utiliser des cookies avec un préfixe__Host-
. Cela vous permettra de protéger votre domaine contre les tentatives de falsification de requêtes intersites (CSRF). Pour de plus amples informations, veuillez consulter le .Set-Cookiepage du Mozilla Developer Network. -
Les espaces de travail Amazon EMR Studio et les points de terminaison d'interface utilisateur persistants utilisent des modules cryptographiques validés par la norme FIPS 140 encryption-in-transit, ce qui facilite l'adoption du service pour les charges de travail régulées. Pour plus d'informations sur les points de terminaison d'interface utilisateur persistants, consultez Afficher les interfaces utilisateur d'applications persistantes dans Amazon EMR. Pour plus d'informations sur les blocs-notes, consultez la présentation des blocs-notes Amazon EMR.
Problèmes connus
-
Un studio EMR qui utilise IAM Identity Center avec la propagation d’identité approuvée ne peut être associé qu’aux clusters EMR qui utilisent également la propagation d’identité approuvée.
-
Assurez-vous de désactiver les outils de gestion de proxy tels que FoxyProxy or SwitchyOmega dans le navigateur avant de créer un Studio. Les proxys actifs peuvent provoquer des erreurs lorsque vous choisissez Créer un studio et générer un message d'erreur de défaillance du réseau.
-
Les noyaux qui s'exécutent sur Amazon EMR sur des clusters EKS peuvent ne pas démarrer en raison de problèmes d'expiration du délai. Si vous rencontrez une erreur ou un problème lors du démarrage du noyau, fermez le fichier de bloc-notes, arrêtez le noyau, puis rouvrez le fichier de bloc-notes.
-
L'opération de redémarrage du noyau ne fonctionne pas comme prévu lorsque vous utilisez un cluster Amazon EMR sur EKS. Après avoir sélectionné Redémarrer le noyau, actualisez le Workspace pour que le redémarrage prenne effet.
-
Si aucun Workspace n'est rattaché à un cluster, un message d'erreur s'affiche lorsqu'un utilisateur de Studio ouvre un fichier de bloc-notes et tente de sélectionner un noyau. Vous pouvez ignorer ce message d'erreur en choisissant Ok, mais vous devez rattacher le Workspace à un cluster et sélectionner un noyau avant de pouvoir exécuter le code du bloc-notes.
-
Lorsque vous utilisez Amazon EMR 6.2.0 avec une configuration de sécurité pour configurer la sécurité du cluster, l'interface Workspace apparaît vide et ne fonctionne pas comme prévu. Si vous souhaitez configurer le chiffrement des données ou l'autorisation Amazon S3 pour EMRFS avec un cluster, nous vous recommandons d'utiliser une autre version prise en charge d'Amazon EMR. EMR Studio fonctionne avec les versions 5.32.0 (série Amazon EMR 5.x) ou 6.2.0 (série Amazon EMR 6.x) et les versions ultérieures d’Amazon EMR.
-
Lorsque vous Déboguer Amazon EMR en cours d'exécution sur Amazon Jobs EC2 , les liens vers l'interface utilisateur Spark intégrée au cluster peuvent ne pas fonctionner ou ne pas s'afficher. Pour régénérer les liens, créez une nouvelle cellule de bloc-notes et exécutez la commande
%%info
. -
Jupyter Enterprise Gateway ne nettoie pas les noyaux inactifs sur le nœud primaire d'un cluster dans les versions Amazon EMR suivantes : 5.32.0, 5.33.0, 6.2.0 et 6.3.0. Les noyaux inactifs consomment des ressources informatiques et peuvent entraîner la défaillance de clusters qui fonctionnent depuis longtemps. Vous pouvez configurer le nettoyage du noyau inactif pour Jupyter Enterprise Gateway à l'aide de l'exemple de script suivant. Vous pouvez Connectez-vous au nœud principal du cluster Amazon EMR à l'aide de SSH, ou soumettre le script en tant qu'étape. Pour plus d'informations, consultez Exécuter des commandes et des scripts sur un cluster Amazon EMR.
#!/bin/bash sudo tee -a /emr/notebook-env/conf/jupyter_enterprise_gateway_config.py << EOF c.MappingKernelManager.cull_connected = True c.MappingKernelManager.cull_idle_timeout = 10800 c.MappingKernelManager.cull_interval = 300 EOF sudo systemctl daemon-reload sudo systemctl restart jupyter_enterprise_gateway
-
Lorsque vous utilisez une politique d'arrêt automatique avec les versions 5.32.0, 5.33.0, 6.2.0 ou 6.3.0 d'Amazon EMR, Amazon EMR marque un cluster comme étant inactif et peut automatiquement le mettre fin à celui-ci, même si vous avez un noyau Python3 actif. Cela est dû au fait que l'exécution d'un noyau Python3 ne soumet pas de tâche Spark sur le cluster. Pour utiliser l'arrêt automatique avec un noyau Python3, nous vous recommandons d'utiliser Amazon EMR version 6.4.0 ou ultérieure. Pour plus d'informations sur l'arrêt automatique, consultez Utilisation d'une politique de résiliation automatique pour le nettoyage du cluster Amazon EMR.
-
Lorsque vous
%%display
affichez un Spark DataFrame dans un tableau, les tableaux très larges peuvent être tronqués. Cliquez avec le bouton droit sur la sortie et sélectionnez Créer une nouvelle vue pour la sortie afin d'obtenir une vue défilante de la sortie. -
Le démarrage d'un noyau basé sur Spark, tel que PySpark Spark ou SparkR, démarre une session Spark, et l'exécution d'une cellule dans un bloc-notes place les tâches Spark dans la file d'attente de cette session. Lorsque vous interrompez une cellule en cours d'exécution, la tâche Spark continue de s'exécuter. Pour arrêter la tâche Spark, vous devez utiliser l'interface utilisateur Spark intégrée au cluster. Pour plus d'informations sur la façon de se connecter à l'interface utilisateur Spark, consultez Déboguer des applications et des tâches avec EMR Studio.
-
L'utilisation d'Amazon EMR Studio Workspaces en tant qu'utilisateur root dans an Compte AWS provoque une erreur.
403: Forbidden
Cela est dû au fait que la configuration de Jupyter Enterprise Gateway dans Amazon EMR n'autorise pas l'accès à l'utilisateur root. Nous vous recommandons de ne pas utiliser l'utilisateur root pour vos tâches quotidiennes. Pour les autres options d'authentification, consultez AWS Identity and Access Management Amazon EMR.
Limites fonctionnelles
Amazon EMR Studio ne prend pas en charge les fonctionnalités Amazon EMR suivantes :
-
Attacher et exécuter des tâches sur des clusters EMR avec une configuration de sécurité qui spécifie l'authentification Kerberos
-
Clusters dotés de plusieurs nœuds primaires
-
Clusters utilisant des EC2 instances Amazon basées sur AWS Graviton2 pour les versions 6.x d'Amazon EMR 6.x inférieures à 6.9.0 et 5.x inférieures à 5.36.1
Les fonctionnalités suivantes ne sont pas prises en charge par un studio qui utilise la propagation d’identité approuvée :
-
Création de clusters EMR sans modèle
-
Utilisation d’applications EMR sans serveur
-
Lancement d’Amazon EMR sur des clusters EKS
-
Utilisation d’un rôle d’exécution
-
Activation de la collaboration avec SQL Explorer ou Workspace
Limites de service pour EMR Studio
Le tableau suivant indique les limites de service pour EMR Studio.
Élément | Limite |
---|---|
EMR Studios | Maximum de 100 par AWS compte |
Sous-réseaux | Maximum de 5 rattachés à chaque EMR Studio |
Groupes IAM Identity Center | Maximum de 5 rattachés à chaque EMR Studio |
Utilisateurs IAM Identity Center | Maximum de 100 rattachés à chaque EMR Studio |