Utilisation d’un formulaire dans la console Athena pour ajouter une table AWS Glue - Amazon Athena

Utilisation d’un formulaire dans la console Athena pour ajouter une table AWS Glue

La procédure suivante vous montre comment utiliser la console Athena pour ajouter une table à l'aide du formulaire Create Table From S3 bucket data (Créer une table à partir des données du compartiment S3).

Ajout d'une table et saisie des informations de schéma à l'aide d'un formulaire
  1. Ouvrez la console Athena à l’adresse https://console.aws.amazon.com/athena/.

  2. Dans l'éditeur de requêtes, à côté de Tables and views (Tables et vues), choisissez Create (Créer) puis choisissez S3 bucket data (Données de compartiment S3).

  3. Dans le formulaire Create Table From S3 bucket data (Créer une table à partir des données du compartiment S3), pour Table name (Nom de la table), saisissez le nom de la table. Pour plus d’informations sur les caractères admis dans les noms de base de données, de table et de colonne dans Athena, consultez Attribution de noms aux tables, aux bases de données et aux colonnes.

  4. Pour Database configuration (Configuration de la base de données), choisissez une base de données existante ou créez-en une.

  5. Pour Location of Input Data Set (Emplacement du jeu de données en entrée), spécifiez le chemin d'accès dans Simple Storage Service (Amazon S3) au dossier contenant le jeu de données que vous souhaitez traiter. N'incluez pas de nom de fichier dans le chemin. Athena analyse tous les fichiers dans le dossier que vous spécifiez. Si vos données sont déjà partitionnées (par exemple,

    s3://amzn-s3-demo-bucket/logs/year=2004/month=12/day=11/), saisissez uniquement le chemin de base (par exemple, s3://amzn-s3-demo-bucket/logs/).

  6. Pour Data Format (Format des données), choisissez l'une des options suivantes :

    • Pour le type de table, choisissez Apache Hive, Apache Iceberg ou Delta Lake. Athena utilise le type de table Apache Hive par défaut. Pour plus d'informations sur l'interrogation des tables Apache Iceberg dans Athena, voir Interrogation des tables Apache Iceberg. Pour plus d'informations sur l'utilisation des tables Delta Lake dans Athena, voir Interrogation des tables Linux Foundation Delta Lake.

    • Pour File format (Format de fichier), choisissez le format de fichier ou de journal dans lequel se trouvent vos données.

      • Pour l'option Text File with Custom Delimiters (Fichier texte avec délimiteurs personnalisés), spécifiez un Field Terminator (Délimiteur de champ) (c'est-à-dire un délimiteur de colonne). Vous pouvez éventuellement spécifier un délimiteur de collection qui marque la fin d'un type de tableau ou un délimiteur de collection qui marque la fin d'un type de données cartographiques.

    • Bibliothèque SerDe : une bibliothèque SerDe (sérialiseur-désérialiseur) analyse un format de données particulier afin qu'Athena puisse créer une table pour celui-ci. Pour la plupart des formats, une bibliothèque SerDe par défaut est choisie pour vous. Pour les formats suivants, choisissez une bibliothèque en fonction de vos exigences :

      • Apache Web Logs : choisissez la bibliothèque RegexSerDe ou GrokSerDe. Pour RegexSerDe, fournissez une expression régulière dans la zone Regex definition (Définition de regex). Pour GrokSerDe, fournissez une série d'expressions régulières nommées pour la propriété input.format SerDe. Les expressions régulières nommées sont plus faciles à lire et à gérer que les expressions régulières. Pour de plus amples informations, consultez Interrogation des journaux Apache stockés dans Amazon S3.

      • CSV : choisissez LazySimpleSerDe si vos données séparées par des virgules ne contiennent pas de valeurs entre guillemets doubles ou si elles utilisent le format java.sql.Timestamp. Choisissez OpenCSVSerDe si vos données incluent des guillemets ou utilisent le format numérique UNIX pour TIMESTAMP (par exemple, 1564610311). Pour plus d'informations, consultez SerDe Lazy Simple pour les fichiers CSV, TSV et avec séparateur personnalisé et SerDe Open CSV pour le traitement de données CSV.

      • JSON : choisissez la bibliothèque JSON SerDe OpenX ou Hive. Les deux formats nécessitent que chaque document JSON soit sur une seule ligne de texte et que les champs ne soient pas séparés par des caractères de saut de ligne. Le SerDe OpenX offre quelques propriétés supplémentaires. Pour de plus amples informations sur ces propriétés, veuillez consulter SerDe JSON OpenX. Pour plus d'informations sur le SerDe Hive, veuillez consulter la rubrique SerDe JSON Hive.

      Pour plus d'informations sur l'utilisation de bibliothèques SerDe dans Athena, veuillez consulter la rubrique Choix d’un SerDe pour vos données.

  7. Pour SerDe properties (Propriétés SerDe), ajoutez, modifiez ou supprimez des propriétés et des valeurs en fonction de la bibliothèque SerDe que vous utilisez et de vos exigences.

    • Pour ajouter une propriété SerDe, choisissez Add SerDe property (Ajouter une propriété SerDe).

    • Dans le champ Name (Nom), saisissez le nom de la propriété.

    • Dans le champ Value (Valeur), saisissez une valeur pour la propriété.

    • Pour supprimer une propriété SerDe, choisissez Remove (Supprimer).

  8. Pour Table properties (Propriétés de table), choisissez ou modifiez les propriétés de la table en fonction de vos exigences.

    • Pour Write compression (Compression d'écriture), choisissez une option de compression. La disponibilité de l'option de compression d'écriture et des options de compression dépend du format des données. Pour de plus amples informations, consultez Utilisation de la compression dans Athena.

    • Pour Encryption (Chiffrement), sélectionnez Encrypted data set (Jeu de données chiffrées) si les données sous-jacentes sont chiffrées dans Amazon S3. Cette option définit la propriété de table has_encrypted_data sur « true » (vrai) dans l'instruction CREATE TABLE.

  9. Pour Column details (Détails de colonne), saisissez les noms et les types de données des colonnes que vous souhaitez ajouter à la table.

    • Pour ajouter d'autres colonnes une par une, choisissez Add a column (Ajouter une colonne).

    • Pour ajouter rapidement d'autres colonnes, choisissez Bulk add columns (Ajouter des colonnes en bloc). Dans la zone de texte, saisissez une liste de colonnes séparées par des virgules au format column_name data_type, column_name data_type[, ...], puis choisissez Add (Ajouter).

  10. (Facultatif) Pour Partition details (Détails de partition), ajoutez un ou plusieurs noms de colonnes et des types de données. Le partitionnement permet de conserver les données associées en fonction des valeurs des colonnes et peut contribuer à réduire la quantité de données scannées par requête. Pour plus d'informations sur le partitionnement, voir Partitionner vos données.

  11. (Facultatif) Pour Bucketing (Mise en compartiments), vous pouvez spécifier une ou plusieurs colonnes contenant des lignes que vous souhaitez regrouper, puis placer ces lignes dans plusieurs compartiments. Cela vous permet d'interroger uniquement le compartiment que vous souhaitez lire lorsque la valeur des colonnes mises en compartiments est spécifiée.

    • Pour Buckets (Compartiments), sélectionnez une ou plusieurs colonnes comportant un grand nombre de valeurs uniques (par exemple, une clé primaire) et qui sont fréquemment utilisées pour filtrer les données de vos requêtes.

    • Pour Number of buckets (Nombre de compartiments), saisissez un nombre permettant aux fichiers d'avoir une taille optimale. Pour plus d'informations, veuillez consulter l'article 10 meilleurs conseils de réglage des performances pour Amazon Athena sur le blog AWS Big Data.

    • Pour spécifier vos colonnes mises en compartiments, l'instruction CREATE TABLE utilisera la syntaxe suivante :

      CLUSTERED BY (bucketed_columns) INTO number_of_buckets BUCKETS
    Note

    L'option Bucketing (Mise en compartiments) n'est pas disponible pour le type de table Iceberg.

  12. La zone Preview table query (Requête de prévisualisation de table) affiche l'instruction CREATE TABLE générée par les informations que vous avez saisies dans le formulaire. L'instruction de prévisualisation ne peut pas être modifiée directement. Pour modifier l'instruction, modifiez les champs du formulaire au-dessus de l'aperçu, ou créez directement l'instruction dans l'éditeur de requêtes au lieu d'utiliser le formulaire.

  13. Choisissez Create table (Créer une table) pour exécuter l'instruction générée dans l'éditeur de requêtes et créer la table.