Considérations Considérations Considérations relatives à Amazon EMR with Lake Formation pour les versions 7.12 et ultérieures Permissions Journaux et débogage Iceberg

Considérations relatives à Amazon EMR avec Lake Formation

Amazon EMR with Lake Formation est disponible dans toutes les régions disponibles.

Considérations relatives à Amazon EMR with Lake Formation pour les versions 7.9 et antérieures

Tenez compte des points suivants lorsque vous utilisez AWS Lake Formation EMR 7.9 et des versions antérieures.

Fine-grained le contrôle d'accès au niveau des lignes, des colonnes et des cellules est disponible sur les clusters dotés des versions 6.15 et supérieures d'Amazon EMR.
Les utilisateurs ayant accès à une table peuvent accéder à toutes les propriétés de cette table. Si vous disposez d'un contrôle d'accès basé sur Lake Formation sur une table, consultez la table pour vous assurer que les propriétés ne contiennent aucune donnée ou information sensible.
Les clusters Amazon EMR dotés de Lake Formation ne prennent pas en charge le retour de Spark à HDFS lorsque Spark collecte les statistiques des tables. Cela permet généralement d'optimiser les performances des requêtes.
Les opérations qui prennent en charge les contrôles d’accès basés sur Lake Formation avec les tables Apache Spark non gouvernées incluent INSERT INTO et INSERT OVERWRITE.
Les opérations qui prennent en charge les contrôles d'accès basés sur Lake Formation avec Apache Spark et Apache Hive incluent SELECT, DESCRIBE, SHOW DATABASE, SHOW TABLE, SHOW COLUMN et SHOW PARTITION.
Amazon EMR ne prend pas en charge le contrôle de l’accès aux opérations suivantes basées sur Lake Formation :
- Écritures dans des tables gouvernées
- Amazon EMR ne prend pas en charge CREATE TABLE. La version 6.10.0 et les versions ultérieures d’Amazon EMR prennent en charge ALTER TABLE.
- Instructions DML autres que des commandes INSERT.
Il existe des différences de performances entre la même requête avec et sans le contrôle d'accès basé sur Lake Formation.
Vous ne pouvez utiliser Amazon EMR qu'avec Lake Formation pour les tâches Spark.
La propagation de Trusted Identity n'est pas prise en charge avec la hiérarchie multi-catalogues dans Glue Data Catalog. Pour plus d'informations, consultez la section Utilisation d'une hiérarchie de catalogues multiples dans AWS Glue Data Catalog.

Considérations relatives à Amazon EMR with Lake Formation pour les versions 7.10 et ultérieures

Tenez compte des points suivants lorsque vous utilisez Amazon EMR avec AWS Lake Formation EMR 7.10 et versions ultérieures.

Amazon EMR prend en charge le contrôle d'accès précis via Lake Formation uniquement pour les tables Apache Hive, Apache Iceberg, Apache Delta et Apache Hudi. Les formats Apache Hive incluent Parquet, ORC et XSv CSV CSV.
Pour les applications compatibles avec Lake Formation, les journaux Spark sont écrits sur Amazon S3 en deux groupes : les journaux de l'espace système et les journaux de l'espace utilisateur. Les journaux de l'espace système peuvent contenir des informations sensibles telles que le schéma complet de la table. Pour protéger ces données, Amazon EMR stocke les journaux de l'espace système dans un emplacement distinct des journaux de l'espace utilisateur. Il est vivement recommandé aux administrateurs de compte de ne pas autoriser les utilisateurs à accéder aux journaux de l'espace système.
Si vous enregistrez l'emplacement d'une table auprès de Lake Formation, l'accès aux données sera contrôlé exclusivement par les autorisations du rôle utilisé pour l'enregistrement, plutôt que par le rôle d'exécution des tâches Amazon EMR. Si le rôle d'enregistrement est mal configuré, les tâches qui tentent d'accéder à la table échoueront.
Vous ne pouvez pas désactiver DynamicResourceAllocation les jobs de Lake Formation.
Vous ne pouvez utiliser Lake Formation qu’avec des tâches Spark.
Amazon EMR with Lake Formation ne prend en charge qu'une seule session Spark tout au long d'une tâche.
Amazon EMR with Lake Formation prend uniquement en charge les requêtes de table entre comptes partagées via des liens de ressources.
Les éléments suivants ne sont pas pris en charge :
- Jeux de données distribués résilients (RDD)
- Spark Streaming
- Écriture avec les autorisations accordées par Lake Formation
- Contrôle d’accès pour les colonnes imbriquées
Amazon EMR bloque les fonctionnalités susceptibles de compromettre l'isolation complète du pilote système, notamment les suivantes :
- UDT, HiveUDF et toute fonction définie par l’utilisateur impliquant des classes personnalisées
- Sources de données personnalisées
- Fourniture de fichiers JAR supplémentaires pour l’extension, le connecteur ou le métastore Spark
- Commande ANALYZE TABLE
Pour appliquer les contrôles d’accès, les opérations EXPLAIN PLAN et DDL telles que DESCRIBE TABLE n’exposent pas les informations restreintes.
Amazon EMR restreint l'accès aux journaux Spark du pilote système sur les applications Lake. Formation-enabled Étant donné que le pilote système fonctionne avec des autorisations élevées, les événements et les journaux générés par le pilote système peuvent inclure des informations sensibles. Pour empêcher les utilisateurs ou le code non autorisés d'accéder à ces données sensibles, Amazon EMR désactive l'accès aux journaux des pilotes du système.

Les journaux des profils système sont toujours conservés dans le stockage géré. Il s'agit d'un paramètre obligatoire qui ne peut pas être désactivé. Ces journaux sont stockés de manière sécurisée et chiffrés à l'aide d'une clé KMS gérée par le client ou d'une clé KMS AWS gérée.

Si votre application Amazon EMR se trouve dans un sous-réseau privé doté de points de terminaison VPC pour Amazon S3 et que vous associez une politique de point de terminaison pour contrôler l'accès, avant que vos tâches puissent envoyer des données de journal à AWS Amazon S3 géré, vous devez inclure les autorisations détaillées dans Stockage géré dans votre politique VPC pour le point de terminaison de passerelle S3. Pour toute demande de dépannage, contactez AWS le support.
Si vous avez enregistré l'emplacement d'une table auprès de Lake Formation, le chemin d'accès aux données passe par les informations d'identification stockées dans Lake Formation, indépendamment de l'autorisation IAM pour le rôle d'exécution de la tâche Amazon EMR. Si vous configurez mal le rôle enregistré avec l’emplacement de la table, les tâches soumises qui utilisent le rôle avec l’autorisation S3 IAM sur l’emplacement de la table échoueront.
L’écriture dans une table Lake Formation utilise l’autorisation IAM plutôt que les autorisations accordées par Lake Formation. Si votre rôle d’exécution de tâches dispose des autorisations S3 nécessaires, vous pouvez l’utiliser pour exécuter des opérations d’écriture.

Voici les restrictions et les considérations à prendre en compte lors de l’utilisation d’Apache Iceberg :

Vous ne pouvez utiliser Apache Iceberg qu’avec un catalogue de sessions et non avec des catalogues nommés arbitrairement.
Les tables Iceberg enregistrées dans Lake Formation ne prennent en charge que les tables de métadonnées historymetadata_log_entries,snapshots,, filesmanifests, etrefs. Amazon EMR masque les colonnes susceptibles de contenir des données sensibles, telles que partitionspath, et. summaries Cette restriction ne s’applique pas aux tables Iceberg qui ne sont pas enregistrées dans Lake Formation.
Les tables que vous n’enregistrez pas dans Lake Formation prennent en charge toutes les procédures stockées par Iceberg. Les procédures register_table et migrate ne sont prises en charge pour aucune table.
Nous vous recommandons d'utiliser Iceberg DataFrameWriterV2 au lieu de V1.

Considérations relatives à Amazon EMR with Lake Formation pour les versions 7.12 et ultérieures

Général

Consultez les limites suivantes lors de l'utilisation de Lake Formation avec Amazon EMR.

Vous ne pouvez pas désactiver DynamicResourceAllocation les jobs de Lake Formation.
Vous ne pouvez utiliser Lake Formation qu’avec des tâches Spark.
Amazon EMR with Lake Formation ne prend en charge qu'une seule session Spark tout au long d'une tâche.
Amazon EMR with Lake Formation prend uniquement en charge les requêtes de table entre comptes partagées via des liens de ressources.
Les éléments suivants ne sont pas pris en charge :
- Jeux de données distribués résilients (RDD)
- Spark Streaming
- Contrôle d’accès pour les colonnes imbriquées
Amazon EMR bloque les fonctionnalités susceptibles de compromettre l'isolation complète du pilote système, notamment les suivantes :
- UDT, HiveUDF et toute fonction définie par l’utilisateur impliquant des classes personnalisées
- Sources de données personnalisées
- Fourniture de fichiers JAR supplémentaires pour l’extension, le connecteur ou le métastore Spark
- Commande ANALYZE TABLE
Si votre application Amazon EMR se trouve dans un sous-réseau privé doté de points de terminaison VPC pour Amazon S3 et que vous associez une politique de point de terminaison pour contrôler l'accès, avant que vos tâches puissent envoyer des données de journal à AWS Amazon S3 géré, vous devez inclure les autorisations détaillées dans Stockage géré dans votre politique VPC pour le point de terminaison de passerelle S3. Pour toute demande de dépannage, contactez AWS le support.
À partir d'Amazon EMR 7.9.0, Spark FGAC est compatible S3AFileSystem lorsqu'il est utilisé avec le schéma s3a ://.
Amazon EMR 7.11 prend en charge la création de tables gérées à l'aide du CTAS.
Amazon EMR 7.12 prend en charge la création de tables gérées et externes à l'aide du CTAS.

Permissions

Pour renforcer les contrôles d'accès, les opérations EXPLAIN PLAN et DDL telles que DESCRIBE TABLE n'exposent pas d'informations restreintes.
Lorsque vous enregistrez l'emplacement d'une table auprès de Lake Formation, l'accès aux données utilise les informations d'identification stockées par Lake Formation au lieu des autorisations IAM du rôle d'exécution des tâches EMR Serverless. Les tâches échoueront si le rôle enregistré pour l'emplacement de la table est mal configuré, même si le rôle d'exécution dispose des autorisations IAM S3 pour cet emplacement.
À partir d'Amazon EMR 7.12, vous pouvez écrire dans des tables Hive et Iceberg existantes en utilisant DataFrameWriter (V2) avec les informations d'identification de Lake Formation en mode ajout. Pour les opérations de remplacement ou lors de la création de nouvelles tables, EMR utilise les informations d'identification du rôle d'exécution pour modifier les données des tables.
Les limitations suivantes s'appliquent lors de l'utilisation de vues ou de tables mises en cache comme données source (ces limitations ne s'appliquent pas aux vues du catalogue de données AWS Glue) :
- Pour les opérations MERGE, DELETE et UPDATE
  - Supporté : utilisation de vues et de tables mises en cache comme tables sources.
  - Non pris en charge : utilisation de vues et de tables mises en cache dans les clauses d'affectation et de condition.
- Pour les opérations CREATE OR REPLACE et REPLACE TABLE AS SELECT :
  - Non pris en charge : utilisation de vues et de tables mises en cache comme tables sources.
Les tables Delta Lake contenant des UDF dans les données source prennent en charge les opérations MERGE, DELETE et UPDATE uniquement lorsque le vecteur de suppression est activé.

Journaux et débogage

Amazon EMR restreint l'accès aux journaux Spark du pilote système sur les applications Lake. Formation-enabled Étant donné que le pilote système fonctionne avec des autorisations élevées, les événements et les journaux générés par le pilote système peuvent inclure des informations sensibles. Pour empêcher les utilisateurs ou le code non autorisés d'accéder à ces données sensibles, Amazon EMR désactive l'accès aux journaux des pilotes du système.

Les journaux des profils système sont toujours conservés dans le stockage géré. Il s'agit d'un paramètre obligatoire qui ne peut pas être désactivé. Ces journaux sont stockés de manière sécurisée et chiffrés à l'aide d'une clé KMS gérée par le client ou d'une clé KMS AWS gérée.

Iceberg

Prenez en compte les points suivants lors de l'utilisation d'Apache Iceberg :

Vous ne pouvez utiliser Apache Iceberg qu’avec un catalogue de sessions et non avec des catalogues nommés arbitrairement.
Les tables Iceberg enregistrées dans Lake Formation ne prennent en charge que les tables de métadonnées historymetadata_log_entries,snapshots,, filesmanifests, etrefs. Amazon EMR masque les colonnes susceptibles de contenir des données sensibles, telles que partitionspath, et. summaries Cette restriction ne s’applique pas aux tables Iceberg qui ne sont pas enregistrées dans Lake Formation.
Les tables qui ne sont pas enregistrées dans Lake Formation prennent en charge toutes les procédures stockées par Iceberg. Les procédures register_table et migrate ne sont prises en charge pour aucune table.
Nous vous suggérons d'utiliser Iceberg DataFrameWriterV2 au lieu de V1.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Utilisation des vues du catalogue de données Glue dans Amazon EMR

API native de contrôle d'accès affinée avec liste d'autorisations Spark PySpark