Accès à Amazon S3 Tables à l’aide du point de terminaison AWS Glue Iceberg REST
Une fois que vos compartiments de table S3 sont intégrés au AWS Glue Data Catalog, vous pouvez utiliser le point de terminaison AWS Glue Iceberg REST pour vous connecter à vos tables S3 à partir de clients compatibles Apache Iceberg, tels que PyIceberg ou Spark. Le point de terminaison AWS Glue Iceberg REST implémente la spécification Iceberg REST Catalog Open API
Pour une description détaillée de l’utilisation de bout en bout avec PyIceberg, consultez Accès aux données dans Amazon S3 Tables avec PyIceberg via le point de terminaison AWS Glue Iceberg REST
Prérequis
Création d’un rôle IAM pour votre client
Pour accéder aux tables via des points de terminaison AWS Glue, vous devez créer un rôle IAM avec des autorisations pour les actions AWS Glue et Lake Formation. Cette procédure explique comment créer ce rôle et configurer ses autorisations.
Ouvrez la console IAM à l’adresse https://console.aws.amazon.com/iam/
. Dans le volet de navigation de gauche, choisissez Politiques.
Choisissez Créer une politique, puis JSON dans l’éditeur de politique.
Ajoutez la politique en ligne suivante qui accorde des autorisations d’accès aux actions AWS Glue et Lake Formation :
-
Une fois que vous avez créé cette politique, créez un rôle IAM et choisissez Politique d’approbation personnalisée comme Type d’entité approuvée.
-
Entrez ce qui suit pour la Politique d’approbation personnalisée.
Définition de l’accès dans Lake Formation
Lake Formation fournit un contrôle précis des accès pour vos tables de lac de données. Lorsque vous avez intégré votre compartiment S3 au AWS Glue Data Catalog, vos tables ont été automatiquement enregistrés en tant que ressources dans Lake Formation. Pour accéder à ces tables, vous devez accorder des autorisations spécifiques à Lake Formation pour votre identité IAM, en plus de ses autorisations de politique IAM.
Les étapes suivantes expliquent comment appliquer les contrôles d’accès Lake Formation pour permettre à votre client Iceberg de se connecter à vos tables. Vous devez vous connecter en tant qu’administrateur du lac de données pour appliquer ces autorisations.
Autorisation des moteurs externes à accéder aux données des tables
Dans Lake Formation, vous devez activer l’accès complet aux tables pour que les moteurs externes puissent accéder aux données. Cela permet aux applications tierces d’obtenir des informations d’identification temporaires auprès de Lake Formation lorsqu’elles utilisent un rôle IAM disposant d’autorisations complètes sur la table demandée.
Ouvrez la console Lake Formation à l’adresse https://console.aws.amazon.com/lakeformation/
Ouvrez la console Lake Formation à l’adresse https://console.aws.amazon.com/lakeformation/
et connectez-vous en tant qu’administrateur du lac de données. Dans le panneau de navigation, sous Administration, choisissez Paramètres d’intégration des applications.
Sélectionnez Autoriser les moteurs externes à accéder aux données dans les emplacements Amazon S3 avec un accès complet aux tables. Ensuite, choisissez Save (Enregistrer).
Octroi des autorisations Lake Formation sur vos ressources de table
Accordez ensuite des autorisations Lake Formation pour le rôle IAM que vous avez créé pour votre client compatible avec Iceberg. Ces autorisations permettront au rôle de créer et de gérer des tables dans votre espace de noms. Vous devez fournir des autorisations au niveau de la base de données et au niveau de la table. Pour plus d’informations, consultez Octroi de l’autorisation Lake Formation sur une table ou une base de données.
Configuration de votre environnement pour utiliser le point de terminaison
Après avoir configuré le rôle IAM avec les autorisations requises pour accéder aux tables, vous pouvez l’utiliser pour exécuter des clients Iceberg depuis votre machine locale en configurant l’AWS CLI avec votre rôle, à l’aide de la commande suivante :
aws sts assume-role --role-arn "arn:aws:iam::<accountid>:role/<glue-irc-role>" --role-session-name<glue-irc-role>
Pour accéder aux tables via le point de terminaison AWS Glue REST, vous devez initialiser un catalogue dans votre client compatible avec Iceberg. Cette initialisation nécessite de spécifier des propriétés personnalisées, notamment les propriétés sigv4, l’URI du point de terminaison et l’emplacement de l’entrepôt. Spécifiez ces propriétés comme suit :
-
Propriétés Sigv4 : Sigv4 doit être activé, le nom de signature est
glue -
Emplacement de l’entrepôt : il s’agit de votre compartiment de table, spécifié dans ce format :
<accountid>:s3tablescatalog/<table-bucket-name> -
URI du point de terminaison : reportez-vous au guide de référence des points de terminaison de service AWS Glue pour le point de terminaison spécifique à la région
L’exemple suivant montre comment initialiser un catalogue pyIceberg.
rest_catalog = load_catalog(s3tablescatalog, **{ "type": "rest", "warehouse": "<accountid>:s3tablescatalog/<table-bucket-name>", "uri": "https://glue.<region>.amazonaws.com/iceberg", "rest.sigv4-enabled": "true", "rest.signing-name": "glue", "rest.signing-region": region } )
Pour plus d’informations sur l’implémentation du point de terminaison AWS Glue Iceberg REST, consultez Connexion au catalogue de données à l’aide du point de terminaison AWS Glue Iceberg REST dans le Guide de l’utilisateur AWS Glue.