Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Considérations et restrictions
Tenez compte des considérations et limites suivantes lorsque vous utilisez Lake Formation avec EMR Serverless.
Note
Lorsque vous activez Lake Formation pour une tâche Spark sur EMR Serverless, la tâche lance un pilote système et un pilote utilisateur. Si vous avez spécifié une capacité préinitialisée au lancement, les pilotes sont fournis à partir de la capacité préinitialisée, et le nombre de pilotes système est égal au nombre de pilotes utilisateur que vous spécifiez. Si vous choisissez la capacité On Demand, EMR Serverless lance un pilote système en plus d'un pilote utilisateur. Pour estimer les coûts associés à votre projet EMR Serverless with Lake Formation, utilisez le. Calculateur de tarification AWS
-
Amazon EMR Serverless prend en charge un contrôle d'accès précis via Lake Formation pour les opérations de lecture avec les tables Apache Hive, Apache Iceberg, Delta Lake et Hudi. Les formats Apache Hive incluent Parquet, ORC et XSv.
-
Les applications compatibles avec Lake Formation ne prennent pas en charge l'utilisation d'images EMR personnalisées sans serveur.
-
Vous ne pouvez pas vous
DynamicResourceAllocationdésinscrire des jobs de Lake Formation. -
Vous ne pouvez utiliser Lake Formation qu’avec des tâches Spark.
-
EMR Serverless with Lake Formation ne prend en charge qu'une seule session Spark tout au long d'une tâche.
-
EMR Serverless with Lake Formation prend uniquement en charge les requêtes de table entre comptes partagées via des liens de ressources.
-
Les éléments suivants ne sont pas pris en charge :
-
Jeux de données distribués résilients (RDD)
-
Spark Streaming
-
Écriture avec les autorisations accordées par Lake Formation
-
Contrôle d’accès pour les colonnes imbriquées
-
-
EMR Serverless bloque les fonctionnalités susceptibles de compromettre l'isolation complète du pilote système, notamment les suivantes :
-
UDTs, Hive UDFs et toute fonction définie par l'utilisateur impliquant des classes personnalisées
-
Sources de données personnalisées
-
Fourniture de fichiers JAR supplémentaires pour l’extension, le connecteur ou le métastore Spark
-
ANALYZE TABLEcommande
-
-
Pour appliquer les contrôles d’accès, les opérations
EXPLAIN PLANet DDL telles queDESCRIBE TABLEn’exposent pas les informations restreintes. -
EMR Serverless restreint l'accès aux journaux Spark du pilote système sur les applications compatibles avec Lake Formation. Étant donné que le pilote système fonctionne avec des autorisations élevées, les événements et les journaux générés par le pilote système peuvent inclure des informations sensibles. Pour empêcher les utilisateurs ou le code non autorisés d'accéder à ces données sensibles, EMR Serverless désactive l'accès aux journaux des pilotes du système.
Les journaux des profils système sont toujours conservés dans le stockage géré. Il s'agit d'un paramètre obligatoire qui ne peut pas être désactivé. Ces journaux sont stockés de manière sécurisée et chiffrés à l'aide d'une clé KMS gérée par le client ou d'une clé KMS AWS gérée.
Si votre application EMR Serverless se trouve dans un sous-réseau privé doté de points de terminaison VPC pour Amazon S3 et que vous associez une politique de point de terminaison pour contrôler l'accès, avant que vos tâches puissent envoyer des données de journal à Amazon S3 AWS géré, incluez les autorisations détaillées dans Stockage géré dans votre politique VPC pour le point de terminaison de passerelle S3. Pour toute demande de dépannage, contactez AWS le support.
-
Si vous avez enregistré l'emplacement d'une table auprès de Lake Formation, le chemin d'accès aux données passe par les informations d'identification stockées dans Lake Formation, indépendamment de l'autorisation IAM pour le rôle d'exécution des tâches EMR Serverless. Si vous configurez mal le rôle enregistré avec l’emplacement de la table, les tâches soumises qui utilisent le rôle avec l’autorisation S3 IAM sur l’emplacement de la table échoueront.
-
L’écriture dans une table Lake Formation utilise l’autorisation IAM plutôt que les autorisations accordées par Lake Formation. Si votre rôle d’exécution de tâches dispose des autorisations S3 nécessaires, vous pouvez l’utiliser pour exécuter des opérations d’écriture.
À partir d'Amazon EMR 7.9.0, Spark FGAC prend en charge le AFile système S3 lorsqu'il est utilisé avec le schéma s3a ://.
Voici les restrictions et les considérations à prendre en compte lors de l’utilisation d’Apache Iceberg :
-
Vous ne pouvez utiliser Apache Iceberg qu’avec un catalogue de sessions et non avec des catalogues nommés arbitrairement.
-
Les tables Iceberg enregistrées dans Lake Formation ne prennent en charge que les tables de métadonnées
historymetadata_log_entries,snapshots,,filesmanifests, etrefs. Amazon EMR masque les colonnes susceptibles de contenir des données sensibles, telles quepartitionspath, et.summariesCette restriction ne s’applique pas aux tables Iceberg qui ne sont pas enregistrées dans Lake Formation. -
Les tables que vous n’enregistrez pas dans Lake Formation prennent en charge toutes les procédures stockées par Iceberg. Les procédures
register_tableetmigratene sont prises en charge pour aucune table. -
Nous vous conseillons d'utiliser Iceberg DataFrameWriter V2 au lieu de V1.