Bonnes pratiques - AWS Conseils prescriptifs

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Bonnes pratiques

Nous recommandons les meilleures pratiques suivantes pour accéder aux données archivées :

  • Pour les grands ensembles de données d'archivage, nous recommandons de créer des tables AWS Glue au-dessus des données afin qu'elles puissent être lues à l'aide de moteurs de requête tels qu'Athena et Amazon Redshift. Athena et Amazon Redshift fournissent tous deux une mise à l'échelle horizontale des performances des requêtes. Ils utilisent également un pay-per-query modèle, qui est rentable dans le cas d'une requête ponctuelle. En outre, Amazon Redshift intègre des moteurs Advanced Query Accelerator (AQUA) qui améliorent les performances de lecture sans frais supplémentaires.

  • Les données archivées déchargées régulièrement dans Amazon S3 ne doivent pas être stockées sous forme de heap dump. Au lieu de cela, elle doit être enregistrée en tant que nouvelle partition. Une partition de date séparera les données en dimensions de date (par exemple,year=<value>/month=<value>/day=<value>). Cela est extrêmement bénéfique dans deux situations :

    • Si les tables AWS Glue sont créées par les robots d'exploration AWS Glue, ces partitions agissent comme des pseudo-colonnes. Cela améliore les performances de lecture en limitant les données numérisées aux partitions de la requête Range.

    • Cela facilite une opération de restauration S3 Glacier lorsque vous ne restaurez qu'un sous-ensemble de l'objet en tant que norme S3.

  • Les robots d'exploration AWS Glue sont très utiles lorsque les données archivées enregistrées dans Amazon S3 sont partitionnées physiquement. Chaque fois que ces données sont déchargées en tant que nouvelle partition de préfixe, le robot d'exploration analyse uniquement la nouvelle partition et met à jour les métadonnées de cette partition. Si le schéma de la table change, ces modifications seront capturées dans les métadonnées au niveau de la partition.