Prérequis pour le crawler - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Prérequis pour le crawler

Le robot d'exploration assume les autorisations du rôle AWS Identity and Access Management (IAM) que vous spécifiez lorsque vous le définissez. Ce rôle IAM doit disposer d'autorisations pour extraire les données de votre magasin de données et écrire sur Data Catalog. La console AWS Glue répertorie uniquement les rôles IAM auxquels une politique d'approbation est attachée pour le service principal AWS Glue. Dans la console, vous pouvez également créer un rôle IAM avec une politique IAM permettant d'accéder aux magasins de données Amazon S3 auxquels l'crawler accède. Pour plus d'informations sur les rôles pour AWS Glue, consultez Politiques basées sur l'identité pour Glue AWS.

Note

Lorsque vous explorez un magasin de données de Delta Lake, vous devez être Read/Write autorisé à accéder à l'emplacement Amazon S3.

Pour votre crawler, vous pouvez créer un rôle et attacher les politiques suivantes :

  • La politique AWSGlueServiceRole AWS gérée, qui accorde les autorisations requises sur le catalogue de données

  • Politique en ligne qui accorde des autorisations sur la source de données.

  • Une politique intégrée qui accorde iam:PassRole l'autorisation sur le rôle.

Si vous préférez une approche plus rapide, vous pouvez laisser l'assistant de l'crawler de la console AWS Glue créer un rôle pour vous. Le rôle qu'il crée est spécifiquement destiné au robot d'exploration et inclut la politique AWSGlueServiceRole AWS gérée ainsi que la politique en ligne requise pour la source de données spécifiée.

Si vous spécifiez un rôle existant pour un crawler, assurez-vous qu'il inclut la politique AWSGlueServiceRole ou l'équivalent (ou une version limitée de cette politique), ainsi que les politiques en ligne requises. Par exemple, pour un magasin de données Amazon S3, la politique en ligne serait au minimum la suivante :

JSON
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:GetObject" ], "Resource": [ "arn:aws:s3:::bucket/object*" ] } ] }

Pour un magasin de données Amazon DynamoDB, la politique serait au minimum la suivante :

JSON
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "dynamodb:DescribeTable", "dynamodb:Scan" ], "Resource": [ "arn:aws:dynamodb:us-east-1:111122223333:table/table-name*" ] } ] }

En outre, si le robot lit AWS Key Management Service (AWS KMS) des données Amazon S3 chiffrées, le rôle IAM doit disposer d'une autorisation de déchiffrement sur la clé. AWS KMS Pour de plus amples informations, veuillez consulter Étape 2 : créer un rôle IAM pour AWS Glue.