Utilisation d’un robot pour ajouter une table - Amazon Athena

Utilisation d’un robot pour ajouter une table

Les Crawlers AWS Glue aident à découvrir le schéma des jeux de données et à les enregistrer sous forme de tables dans le catalogue de données AWS Glue. Les Crawlers explorent vos données et en déterminent le schéma. De plus, le Crawler peut détecter et enregistrer des partitions. Pour plus d'informations, consultez Définition des Crawlers dans le Guide du développeur AWS Glue. Les tables de données dont l'analyse a abouti peuvent être interrogées à partir d'Athena.

Note

Athena ne reconnaît pas les modèles d'exclusion que vous spécifiez pour un Crawler AWS Glue. Par exemple, si vous disposez d'un compartiment Simple Storage Service (Amazon S3) contenant à la fois des fichiers .csv et .json et que vous excluez les fichiers .json du Crawler, Athena interroge les deux groupes de fichiers. Pour éviter cela, placez les fichiers que vous voulez exclure dans un autre emplacement.

Création d’un robot AWS Glue

Vous pouvez créer un crawler en commençant dans la console Athena, puis en utilisant la console AWS Glue de manière intégrée. Lorsque vous créez le crawler, vous spécifiez un emplacement de données à analyser dans Simple Storage Service (Amazon S3).

Création d'un crawler dans AWS Glue en commençant dans la console Athena
  1. Ouvrez la console Athena à l’adresse https://console.aws.amazon.com/athena/.

  2. Dans l'éditeur de requêtes, à côté de Tables and views (Tables et vues), choisissez Create (Créer) puis choisissez le crawler AWS Glue.

  3. Sur la page Add crawler (Ajouter un crawler) de la console AWS Glue, procédez comme suit pour créer un crawler. Pour de plus amples informations, veuillez consulter Utilisation des crawlers AWS Glue dans ce guide et Remplissage du AWS Glue Data Catalog dans le Manuel du développeur AWS Glue.

Note

Athena ne reconnaît pas les modèles d'exclusion que vous spécifiez pour un crawler AWS Glue. Par exemple, si vous disposez d'un compartiment Simple Storage Service (Amazon S3) contenant à la fois des fichiers .csv et .json et que vous excluez les fichiers .json du Crawler, Athena interroge les deux groupes de fichiers. Pour éviter cela, placez les fichiers que vous voulez exclure dans un autre emplacement.

Après une indexation de site web, le Crawler AWS Glue affecte automatiquement certaines métadonnées de table afin de les rendre compatibles avec d'autres technologies externes comme Apache Hive, Presto et Spark. De temps en temps, le Crawler peut attribuer de manière incorrecte les propriétés des métadonnées. Corrigez manuellement les propriétés dans AWS Glue avant d'interroger la table avec Athena. Pour en savoir plus, consultez Affichage et modification des détails de table dans le Guide du développeur AWS Glue.

AWS Glue peut attribuer de manière incorrecte les métadonnées lorsqu'un fichier CSV a des guillemets autour de chaque champ de données, ce qui se traduit par une propriété serializationLib erronée. Pour de plus amples informations, consultez Gestion des données CSV entre guillemets.