Bonnes pratiques de stockage pour les mégadonnées Bonnes pratiques techniques

Bonnes pratiques

Nous vous recommandons de suivre les meilleures pratiques techniques et de stockage. Ces bonnes pratiques peuvent vous aider à tirer le meilleur parti de votre architecture centrée sur les données.

Bonnes pratiques de stockage pour les mégadonnées

Le tableau suivant décrit une bonne pratique courante pour stocker des fichiers destinés à une charge de traitement de données volumineuses sur Amazon S3. La dernière colonne est un exemple de politique de cycle de vie que vous pouvez définir. Si Amazon S3 Intelligent-Tiering est activé (ce qui permet de réaliser des économies automatiques sur les coûts de stockage lorsque les modèles d'accès aux données changent automatiquement), vous n'avez pas besoin de définir manuellement la politique.

Nom de la couche de données	Description	Exemple de stratégie de politique de cycle de vie
Raw	Contient des données brutes non traitées Remarque : Pour une source de données externe, la couche de données brutes est généralement une copie 1:1 des données, mais les données peuvent être partitionnées par des clés en fonction de AWS la date Région AWS ou de la date pendant le processus d'ingestion.	Au bout d'un an, déplacez les fichiers vers la classe de stockage S3 Standard-IA. Après deux ans passés dans S3 Standard-IA, archivez les fichiers dans Amazon Simple Storage Service Glacier (Amazon S3 Glacier). Amazon Glacier (service autonome d'origine basé sur un coffre-fort) n'acceptera plus de nouveaux clients à compter du 15 décembre 2025, sans aucune incidence sur les clients existants. Amazon Glacier est un service autonome doté de son propre service APIs qui stocke les données dans des coffres-forts et qui se distingue des classes de stockage Amazon S3 et Amazon S3 Glacier. Vos données existantes resteront sécurisées et accessibles indéfiniment dans Amazon Glacier. Aucune migration n'est requise. Pour un stockage d'archivage à long terme et à faible coût AWS , nous recommandons les classes de stockage Amazon S3 Glacier, qui offrent une expérience client supérieure avec des compartiments S3, une Région AWS disponibilité totale APIs, des coûts réduits et AWS une intégration des services. Si vous souhaitez bénéficier de fonctionnalités améliorées, envisagez de migrer vers les classes de stockage Amazon S3 Glacier en suivant nos conseils relatifs AWS aux solutions pour le transfert de données depuis les coffres-forts Amazon S3 vers les classes de stockage Amazon S3 Glacier.
Étape	Contient des données traitées intermédiaires optimisées pour la consommation Exemple : fichiers bruts convertis de CSV vers Apache Parquet ou transformations de données	Vous pouvez supprimer des données après une période définie ou selon les exigences de votre organisation. Vous pouvez supprimer certains dérivés de données (par exemple, une transformation Apache Avro d'un format JSON original) du lac de données après un laps de temps plus court (par exemple, après 90 jours).
Analyse	Contient les données agrégées pour vos cas d'utilisation spécifiques dans un format prêt à être consommé Exemple : Apache Parquet	Vous pouvez déplacer les données vers S3 Standard-IA, puis les supprimer après une période définie ou selon les exigences de votre organisation.

Le schéma suivant montre un exemple de stratégie de partitionnement (correspondant à un dossier/préfixe S3) que vous pouvez utiliser sur toutes les couches de données. Nous vous recommandons de choisir une stratégie de partitionnement en fonction de la manière dont vos données sont utilisées en aval. Par exemple, si les rapports sont créés à partir de vos données (les requêtes les plus courantes du rapport filtrent les résultats en fonction de la région et des dates), veillez à inclure les régions et les dates sous forme de partitions afin d'améliorer les performances et l'exécution des requêtes.

Bonnes pratiques techniques

Les meilleures pratiques techniques dépendent des technologies spécifiques Services AWS et de traitement que vous utilisez pour concevoir votre architecture centrée sur les données. Cependant, nous vous recommandons de garder à l'esprit les meilleures pratiques suivantes. Ces meilleures pratiques s'appliquent aux cas d'utilisation typiques du traitement des données.

Area	Bonne pratique
SQL	Réduisez le volume de données à interroger en projetant des attributs sur vos données. Au lieu d'analyser la table entière, vous pouvez utiliser la projection de données pour scanner et renvoyer uniquement certaines colonnes requises dans la table. Évitez les jointures volumineuses si possible, car les jointures entre plusieurs tables peuvent avoir un impact significatif sur les performances en raison de leurs demandes gourmandes en ressources.
Apache Spark	Optimisez les applications Spark grâce au partitionnement de la charge de travail AWS Glue intégré (blog AWS Big Data). Optimisez la gestion de la mémoire dans AWS Glue (blog AWS Big Data).
Conception de base de données	Suivez les meilleures pratiques en matière d'architecture pour les bases de données (Centre AWS d'architecture).
Élagage des données	Utilisez l'élagage des partitions côté serveur avec le. `catalogPartitionPredicate`
Mise à l’échelle	Comprenez et implémentez la mise à l'échelle horizontale.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Automatisation et contrôle d'accès

FAQ