Utilisation d’Amazon S3 Tables et des compartiments de tables
Amazon S3 Tables fournit un stockage S3 optimisé pour les charges de travail d’analytique, avec des fonctionnalités conçues pour améliorer en permanence les performances des requêtes et réduire les coûts de stockage des tables. La solution S3 Tables est spécialement conçue pour stocker des données tabulaires, telles que des transactions d’achat quotidiennes, des données de capteur diffusées en continu ou des impressions publicitaires. Les données tabulaires représentent des données en colonnes et en lignes, comme dans une table de base de données.
Les données figurant dans S3 Tables sont stockées dans un nouveau type de compartiment : un compartiment de tables, qui stocke les tables en tant que sous-ressources. Les compartiments de tables prennent en charge le stockage des tables au format Apache Iceberg. À l’aide d’instructions SQL standard, vous pouvez interroger vos tables à l’aide de moteurs de requête prenant en charge Iceberg, tels qu’Amazon Athena, Amazon Redshift et Apache Spark.
Fonctionnalités de S3 Tables
- Stockage spécialement conçu pour les tables
-
Les compartiments de tables S3 sont spécialement conçus pour les tables. Les compartiments de table offrent un plus grand nombre de transactions par seconde (TPS) et un meilleur débit de requêtes par rapport aux tables autogérées dans les compartiments S3 à usage général. Les compartiments de tables offrent les mêmes durabilité, disponibilité et capacité de mise à l’échelle que les autres types de compartiments Amazon S3.
- Prise en charge intégrée d Apache Iceberg
-
Les tables figurant dans vos compartiments de tables sont stockées au format Apache Iceberg
. Vous pouvez interroger ces tables à l’aide du langage SQL standard dans les moteurs de requête qui prennent en charge Iceberg. Iceberg possède diverses fonctionnalités permettant d’optimiser les performances des requêtes, notamment l’évolution des schémas et des partitions. Avec Iceberg, vous pouvez ainsi modifier la façon dont vos données sont organisées afin qu’elles puissent évoluer dans le temps sans que vous ayez à réécrire vos requêtes ou à reconstruire vos structures de données. Iceberg est conçu pour garantir la cohérence et la fiabilité des données grâce à sa prise en charge des transactions. Pour vous aider à corriger des problèmes ou à effectuer des requêtes d’historique, vous pouvez suivre l’évolution des données dans le temps et les restaurer à des versions antérieures.
- Optimisation des tables automatisée
-
Pour optimiser vos tables pour les requêtes, S3 effectue en permanence des opérations de maintenance automatiques, telles que le compactage, la gestion des instantanés et la suppression des fichiers non référencés. Ces opérations améliorent les performances des tables en compactant de petits objets dans des fichiers moins nombreux et plus volumineux. Les opérations de maintenance réduisent également vos coûts de stockage en nettoyant les objets non utilisés. Cette maintenance automatique simplifie l’exploitation des lacs de données à grande échelle en réduisant le besoin de maintenance manuelle des tables. Pour chaque table et compartiment de tables, vous pouvez personnaliser les configurations de maintenance.
- Gestion des accès et sécurité
-
Vous pouvez gérer l’accès à la fois aux compartiments de tables et aux tables individuelles à l’aide d’AWS Identity and Access Management (IAM) et des politiques de contrôle des services dans AWS Organizations. S3 Tables utilise un espace de noms de service différent de celui d’Amazon S3 : l’espace de noms s3tables. Par conséquent, vous pouvez concevoir des politiques spécifiques pour le service S3 Tables et ses ressources. Vous pouvez concevoir des politiques pour accorder l’accès à des tables individuelles, à toutes les tables d’un espace de noms de tables ou à des compartiments de tables entiers. Tous les paramètres de blocage de l’accès public Amazon S3 sont toujours activés pour les compartiments de tables et ne peuvent pas être désactivés.
- Intégration avec les services d’analytique AWS
-
Vous pouvez intégrer automatiquement vos compartiments de table Amazon S3 avec Amazon SageMaker Lakehouse via la console S3. Cette intégration permet aux services d’analytique AWS de découvrir et d’accéder automatiquement aux données de vos tables via le AWS Glue Data Catalog. Après l’intégration, vous pouvez utiliser les tables à l’aide de services d’analytique tels qu’Amazon Athena, Amazon Redshift, Quick Suite, etc. Pour plus d’informations sur le fonctionnement de l’intégration, consultez Intégration d’Amazon S3 Tables aux services d’analytique AWS.
Services connexes
Vous pouvez utiliser les services Services AWS suivants avec S3 Tables pour prendre en charge vos applications d’analytique spécifiques.
-
Amazon Athena : Athena est un service de requête interactif qui permet d’analyser les données directement dans Amazon S3 à l’aide du langage SQL standard. Vous pouvez également utiliser Athena pour exécuter de façon interactive l’analytique des données à l’aide d’Apache Spark sans avoir à planifier, configurer ni gérer de ressources. Lorsque vous exécutez des applications Apache Spark sur Athena, vous soumettez du code Spark pour traitement et recevez directement les résultats.
-
AWS Glue : AWS Glue est un service d’intégration de données sans serveur qui permet la découverte, la préparation, le déplacement et l’intégration de données de plusieurs sources. Vous pouvez utiliser AWS Glue pour des tâches d’analytique, le machine learning (ML) et le développement d’applications. AWS Glue inclut également des outils supplémentaires de productivité et d’exploitation des données pour la création, l’exécution de tâches et la mise en œuvre de flux de travail.
-
Amazon EMR : Amazon EMR est une plateforme de cluster gérée qui simplifie l’exécution des infrastructures de big data, telles qu’Apache Hadoop et Apache Spark, sur AWS pour traiter et analyser de grandes quantités de données.
-
Amazon Redshift : Amazon Redshift est un service d’entrepôt de données d’une capacité de plusieurs pétaoctets dans le cloud. Amazon Redshift sans serveur vous permet d’accéder aux données et de les analyser sans toutes les configurations d’un entrepôt de données provisionné. Les ressources sont automatiquement provisionnées et la capacité de l’entrepôt des données est intelligemment mise à l’échelle afin d’offrir des performances rapides, même pour les charges de travail les plus exigeantes et les plus imprévisibles. Vous ne payez pas de frais lorsque l’entrepôt des données est inactif, vous ne payez donc que ce que vous utilisez. Vous pouvez charger des données et commencer à effectuer des requêtes immédiatement dans l’éditeur de requête Amazon Redshift v2 ou dans votre outil d’informatique décisionnelle (BI) préféré.
-
Quick Suite : Quick Suite est un service rapide d’analytique d’entreprise conçu pour créer des visualisations, effectuer des analyses ad hoc et dégager rapidement des informations exploitables de vos données. Quick Suite détecte de manière fluide les sources de données AWS et offre des performances de requête rapides et réactives en utilisant son moteur de calcul en mémoire parallèle ultra-rapide (SPICE) Quick Suite.
-
AWS Lake Formation : Lake Formation est un service géré qui facilite le processus pour la configuration, la sécurisation et la gestion de vos lacs de données. Lake Formation vous aide à détecter vos sources de données, puis à cataloguer, nettoyer et transformer les données. Avec Lake Formation, vous pouvez gérer un contrôle d’accès précis des données de vos lacs de données sur Amazon S3 et de leurs métadonnées dans le AWS Glue Data Catalog.