Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Accélération de la découverte des données avec les métadonnées S3
Amazon S3 Metadata accélère la découverte des données en capturant automatiquement les métadonnées des objets de vos compartiments à usage général et en les stockant dans des Apache Iceberg tables entièrement gérées en lecture seule que vous pouvez interroger. Ces tables en lecture seule sont appelées tables de métadonnées. Lorsque des objets sont ajoutés, mis à jour ou supprimés de vos compartiments à usage général, S3 Metadata actualise automatiquement les tables de métadonnées correspondantes pour refléter les dernières modifications.
Par défaut, les métadonnées S3 fournissent trois types de métadonnées :
-
Métadonnées définies par le système, telles que l’heure de création et la classe de stockage d’un objet
-
Métadonnées personnalisées, telles que les balises et les métadonnées définies par l’utilisateur qui ont été incluses lors du chargement de l’objet
-
Les métadonnées des événements, par exemple lorsqu'un objet est mis à jour ou supprimé, et Compte AWS l'auteur de la demande
Avec les métadonnées S3, vous pouvez facilement rechercher, stocker et interroger les métadonnées de vos objets S3, afin de préparer rapidement les données à utiliser dans l’analytique métier, l’extraction de contenu, l’entraînement des modèles d’intelligence artificielle et de machine learning (IA/ML), etc.
Pour chaque compartiment à usage général, vous pouvez créer une configuration de table de métadonnées contenant deux tables de métadonnées complémentaires :
-
Table de journal : par défaut, la configuration de votre table de métadonnées contient une table de journal qui capture les événements qui se produisent pour les objets de votre compartiment. Le tableau du journal enregistre les modifications apportées à vos données en temps quasi réel, ce qui vous aide à identifier les nouvelles données téléchargées dans votre bucket, à suivre les objets récemment supprimés, à surveiller les transitions du cycle de vie, etc. La table du journal enregistre les nouveaux objets et les mises à jour de vos objets et de leurs métadonnées (mises à jour nécessitant une opération
PUT
ou uneDELETE
opération).La table de journal capture les métadonnées uniquement pour les événements de modification (tels que les téléchargements, les mises à jour et les suppressions) qui se produisent après la création de la configuration de votre table de métadonnées. Comme cette table peut être interrogée, vous pouvez auditer les modifications apportées à votre bucket par le biais de simples requêtes SQL.
La table de journal est obligatoire pour chaque configuration de table de métadonnées. (Dans la version initiale de S3 Metadata, la table de journal était appelée « table de métadonnées ».)
Pour plus d'informations sur les données stockées dans les tables de journal, voirSchéma des tables de journal des métadonnées S3.
Pour minimiser vos coûts de stockage, vous pouvez choisir d'activer l'expiration des enregistrements de la table de journal. Pour de plus amples informations, veuillez consulter Enregistrements de table de journal expirant.
-
Table d'inventaire dynamique : vous pouvez éventuellement ajouter une table d'inventaire dynamique à la configuration de votre table de métadonnées. Le tableau d'inventaire en temps réel fournit un inventaire simple et interrogeable de tous les objets et de leurs versions dans votre compartiment afin que vous puissiez déterminer l'état le plus récent de vos données.
Vous pouvez utiliser le tableau d'inventaire en temps réel pour simplifier et accélérer les flux de travail commerciaux et les tâches liées au Big Data en identifiant les objets que vous souhaitez traiter pour différentes charges de travail. Par exemple, vous pouvez interroger la table d'inventaire dynamique pour trouver tous les objets stockés dans une classe de stockage donnée, tous les objets dotés de certaines balises, tous les objets qui ne sont pas chiffrés par chiffrement côté serveur à l'aide de clés AWS Key Management Service (AWS KMS) (SSE-KMS), etc.
Lorsque vous activez la table d'inventaire dynamique pour la configuration de votre table de métadonnées, la table est soumise à un processus appelé backfilling, au cours duquel Amazon S3 analyse votre compartiment à usage général pour récupérer les métadonnées initiales de tous les objets présents dans le compartiment. Selon le nombre d'objets contenus dans votre compartiment, ce processus peut prendre de quelques minutes (minimum 15 minutes) à plusieurs heures. Lorsque le processus de remblayage est terminé, le statut de votre tableau d'inventaire en temps réel passe de Remblayage à Actif. Une fois le remblayage terminé, les mises à jour apportées à vos objets sont généralement reflétées dans le tableau d'inventaire en temps réel en moins d'une heure.
Le remplissage de votre tableau d'inventaire vous est facturé. Si votre bucket à usage général contient plus d'un milliard d'objets, des frais mensuels vous sont également facturés pour votre tableau d'inventaire en ligne. Pour plus d’informations, consultez Tarification Amazon S3
. Pour plus d'informations sur les données stockées dans les tables d'inventaire dynamiques, consultezSchéma des tables d'inventaire en temps réel des métadonnées S3.
Vos tables de métadonnées sont stockées dans un compartiment de tables S3 AWS géré, qui fournit un stockage optimisé pour les données tabulaires. Pour interroger vos métadonnées, vous pouvez intégrer votre bucket de table à Amazon SageMaker Lakehouse. Cette intégration, qui utilise le AWS Glue Data Catalog et AWS Lake Formation, permet aux services AWS d'analyse de découvrir et d'accéder automatiquement aux données de votre table.
Une fois votre compartiment de tables intégré au AWS Glue Data Catalog, vous pouvez directement interroger vos tables de métadonnées à l'aide de services AWS d'analyse tels qu'Amazon Athena, Amazon EMR et Amazon Redshift. Vous pouvez également créer des tableaux de bord interactifs avec les données de vos requêtes à l'aide d'Amazon QuickSight. Pour plus d'informations sur l'intégration de votre compartiment de table S3 AWS géré à Amazon SageMaker Lakehouse, consultez. Utilisation d'Amazon S3 Tables avec des services AWS d'analyse
Vous pouvez également interroger vos tables de métadonnées avec Apache SparkApache Trino, et toute autre application prenant en charge le Apache Iceberg format en utilisant le point de terminaison AWS Glue Iceberg REST, le point de terminaison Iceberg REST Amazon S3 Tables ou le catalogue de tables Amazon S3 pour le catalogue Apache Iceberg client. Pour plus d'informations sur l'accès à vos tables de métadonnées, consultezAccès aux données des tables.
Pour en savoir plus sur la tarification des métadonnées S3, consultez Tarification Amazon S3
Fonctionnement des tables de métadonnées
Les tables de métadonnées sont gérées par Amazon S3 et ne peuvent être modifiées par aucun principal IAM en dehors d’Amazon S3 lui-même. Vous pouvez toutefois supprimer vos tables de métadonnées. Par conséquent, les tables de métadonnées sont en lecture seule, ce qui permet de garantir qu'elles reflètent correctement le contenu de votre bucket à usage général.
Pour générer et stocker des métadonnées d'objets dans des tables de métadonnées AWS gérées, vous devez créer une configuration de table de métadonnées pour votre bucket à usage général. Amazon S3 est conçu pour mettre à jour en permanence les tables de métadonnées afin de refléter les dernières modifications apportées à vos données tant que la configuration est active sur le compartiment à usage général.
Avant de créer une configuration de table de métadonnées, assurez-vous que vous disposez des autorisations AWS Identity and Access Management (IAM) nécessaires pour créer et gérer des tables de métadonnées. Pour de plus amples informations, veuillez consulter Définition des autorisations pour la configuration des tables de métadonnées.
Stockage, organisation et chiffrement des tables de métadonnées
Lorsque vous créez la configuration de vos tables de métadonnées, celles-ci sont stockées dans un bucket de tables AWS
géré. Toutes les configurations de tables de métadonnées de votre compte et de la même région sont stockées dans un seul compartiment de table AWS géré. Ces compartiments de tables AWS gérés sont nommés aws-s3
et ont le format Amazon Resource Name (ARN) suivant :
arn:aws:s3tables:
region
:account_id
:bucket/aws-s3
Par exemple, si votre identifiant de compte est 123456789012 et que votre compartiment à usage général se trouve dans l'est des États-Unis (Virginie du Nord) (us-east-1
), votre compartiment de table AWS géré est également créé dans l'est des États-Unis (Virginie du Nord) (us-east-1
) et possède l'ARN suivant :
arn:aws:s3tables:
us-east-1
:123456789012:bucket/aws-s3
Par défaut, les compartiments de tables AWS gérés sont chiffrés par chiffrement côté serveur à l'aide de clés gérées Amazon S3 (SSE-S3). Après avoir créé votre première configuration de métadonnées, vous pouvez définir le paramètre de chiffrement par défaut pour le compartiment de table AWS géré afin d'utiliser le chiffrement côté serveur avec des clés AWS Key Management Service (AWS KMS) (SSE-KMS). Pour plus d'informations, consultez les sections Chiffrement pour les compartiments de tables AWS gérés etSpécification du chiffrement côté serveur à l'aide de AWS KMS clés (SSE-KMS) dans des compartiments de table.
Dans votre compartiment de tables AWS géré, les tables de métadonnées de votre configuration sont généralement stockées dans un espace de noms au format de dénomination suivant :
b_
general-purpose-bucket-name
Note
-
Si le nom de votre bucket à usage général contient des points, ceux-ci sont convertis en traits de soulignement (
_
) dans le nom de l'espace de noms. -
Si votre bucket à usage général a été créé avant le 1er mars 2018, son nom peut contenir des lettres majuscules et des traits de soulignement, et il peut également comporter jusqu'à 255 caractères. Si le nom de votre bucket possède ces caractéristiques, l'espace de noms de votre table de métadonnées aura un format différent. Le nom du compartiment à usage général sera préfixé
b_
, tronqué à 63 caractères, converti en minuscules et suffixé d'un hachage.
Les tables de métadonnées possèdent le format d’Amazon Resource Name (ARN) suivant :
arn:aws:s3tables:
region-code
:account-id
:bucket/aws-s3/table/metadata_table_name
Les tables de journal portent le nom journal
et les tables d'inventaire dynamiques portent le nominventory
.
Lorsque vous créez la configuration de votre table de métadonnées, vous pouvez choisir de chiffrer vos tables de métadonnées AWS gérées avec un chiffrement côté serveur à l'aide de clés AWS Key Management Service (AWS KMS) (SSE-KMS). Si vous choisissez d'utiliser SSE-KMS, vous devez fournir une clé KMS gérée par le client dans la même région que votre bucket à usage général. Vous pouvez définir le type de chiffrement de vos tables uniquement lors de leur création. Une fois qu'une table AWS gérée est créée, vous ne pouvez pas modifier ses paramètres de chiffrement. Pour spécifier SSE-KMS pour vos tables de métadonnées, vous devez disposer de certaines autorisations. Pour plus d'informations, consultez la section Autorisations pour SSE-KMS.
Le paramètre de chiffrement d'une table de métadonnées a priorité sur le paramètre de chiffrement par défaut au niveau du compartiment. Si vous ne spécifiez pas de chiffrement pour une table, celle-ci héritera du paramètre de chiffrement par défaut du compartiment.
AWS les compartiments de tables gérés ne sont pas pris en compte dans vos quotas de tables S3. Pour plus d'informations sur l'utilisation des compartiments de tables AWS gérés et des tables AWS gérées, consultez la section Utilisation des compartiments de tables AWS gérés.
Pour surveiller les mises à jour apportées à la configuration de votre table de métadonnées, vous pouvez utiliser AWS CloudTrail. Pour de plus amples informations, veuillez consulter Actions au niveau du compartiment Amazon S3 suivies par journalisation CloudTrail .
Maintenance des tables de métadonnées et expiration des enregistrements
Pour optimiser les performances de vos tables de métadonnées , Amazon S3 effectue des activités de maintenance périodiques sur ces tables, telles que le compactage et la suppression des fichiers non référencés. Ces activités de maintenance permettent à la fois de minimiser le coût de stockage de vos tables de métadonnées et d’optimiser les performances des requêtes. Cette maintenance des tables se fait automatiquement. Elle ne nécessite aucune activation ni aucune gestion continue de votre part.
Note
-
Vous ne pouvez pas contrôler l'expiration des instantanés de la table de journal ou de la table d'inventaire. Pour chaque table, Amazon S3 stocke au moins un instantané pendant 24 heures au maximum.
-
Pour réduire vos coûts, vous pouvez configurer l'expiration des enregistrements de la table de journal. Par défaut, les enregistrements de table de journal n'expirent pas et les enregistrements de table de journal doivent être conservés pendant au moins 7 jours. Pour de plus amples informations, veuillez consulter Enregistrements de table de journal expirant.