View a markdown version of this page

Dénibrage des schémas et partitionnement des données - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Dénibrage des schémas et partitionnement des données

Lorsque vous utilisez des sources de données NoSQL telles que DynamoDB et des applications SaaS, les données présentent souvent des défis uniques en matière d’analytique :

  1. Les enregistrements dans une même table peuvent avoir un schéma différent.

  2. Les enregistrements imbriqués dans la même table peuvent être représentés différemment.

  3. Les structures imbriquées complexes telles que les cartes et les tableaux nécessitent une transformation pour des requêtes efficaces.

  4. Une organisation optimale des données est nécessaire pour garantir les performances des requêtes à grande échelle.

AWS Les intégrations Glue Zero-ETL répondent à ces défis grâce à deux puissantes fonctionnalités :

  • Désimbrication de schéma : aplatit automatiquement les structures de données imbriquées complexes dans des formats adaptés à l’analytique, avec des niveaux de désimbrication configurables pour trouver un équilibre entre la préservation de la structure des données et l’optimisation pour la simplicité des requêtes.

  • Partitionnement des données : organise les données en partitions logiques en fonction de colonnes spécifiées ou de dimensions temporelles, améliorant ainsi les performances des requêtes et réduisant les coûts en permettant l’élagage des partitions lors de l’exécution des requêtes.

Afin d'interroger efficacement ces sources de données, AWS Glue Zero-ETL fournit des out-of-the-box schémas de gestion et de partitionnement pour les données sources répliquées dans la base de données Glue AWS cible. Vous pouvez configurer les paramètres de désimbrication et de partitionnement du schéma pour chaque table via l' CreateIntegrationTableProperty API, ce qui permet de contrôler avec précision la manière dont les données sont structurées et organisées pour les charges de travail d'analyse.

Comportement de désimbrication et de partitionnement par défaut

  1. AWS Glue Zero-ETL prend par défaut la valeur FULL Unnest lorsqu'aucune option de désimbrication n'est fournie pour la table cible

  2. AWS Glue Zero-ETL utilise par défaut le partitionnement par bucket lorsque aucun élément n'est fourni pour la PartitionSpec table cible