Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Bonnes pratiques
Nous vous recommandons de suivre les meilleures pratiques techniques et de stockage. Ces bonnes pratiques peuvent vous aider à tirer le meilleur parti de votre architecture centrée sur les données.
Bonnes pratiques de stockage pour les mégadonnées
Le tableau suivant décrit une bonne pratique courante pour stocker des fichiers destinés à une charge de traitement de données volumineuses sur Amazon S3. La dernière colonne est un exemple de politique de cycle de vie que vous pouvez définir. Si Amazon S3 Intelligent-Tiering
Nom de la couche de données |
Description |
Exemple de stratégie de politique de cycle de vie |
Raw |
Contient des données brutes non traitées Remarque : Pour une source de données externe, la couche de données brutes est généralement une copie 1:1 des données, mais les données peuvent être partitionnées par des clés en fonction de AWS la date Région AWS ou de la date pendant le processus d'ingestion. |
Au bout d'un an, déplacez les fichiers vers la classe de stockage S3 Standard-IA. Après deux ans passés dans S3 Standard-IA, archivez les fichiers dans Amazon Simple Storage Service Glacier (Amazon S3 Glacier). Amazon Glacier (service autonome d'origine basé sur un coffre-fort) n'acceptera plus de nouveaux clients à compter du 15 décembre 2025, sans aucune incidence sur les clients existants. Amazon Glacier est un service autonome doté de son propre service APIs qui stocke les données dans des coffres-forts et qui se distingue des classes de stockage Amazon S3 et Amazon S3 Glacier. Vos données existantes resteront sécurisées et accessibles indéfiniment dans Amazon Glacier. Aucune migration n'est requise. Pour un stockage d'archivage à long terme et à faible coût AWS , nous recommandons les classes de stockage Amazon S3 Glacier |
Étape |
Contient des données traitées intermédiaires optimisées pour la consommation Exemple : fichiers bruts convertis de CSV vers Apache Parquet ou transformations de données |
Vous pouvez supprimer des données après une période définie ou selon les exigences de votre organisation. Vous pouvez supprimer certains dérivés de données (par exemple, une transformation Apache Avro d'un format JSON original) du lac de données après un laps de temps plus court (par exemple, après 90 jours). |
Analyse |
Contient les données agrégées pour vos cas d'utilisation spécifiques dans un format prêt à être consommé Exemple : Apache Parquet |
Vous pouvez déplacer les données vers S3 Standard-IA, puis les supprimer après une période définie ou selon les exigences de votre organisation. |
Le schéma suivant montre un exemple de stratégie de partitionnement (correspondant à un dossier/préfixe S3) que vous pouvez utiliser sur toutes les couches de données. Nous vous recommandons de choisir une stratégie de partitionnement en fonction de la manière dont vos données sont utilisées en aval. Par exemple, si les rapports sont créés à partir de vos données (les requêtes les plus courantes du rapport filtrent les résultats en fonction de la région et des dates), veillez à inclure les régions et les dates sous forme de partitions afin d'améliorer les performances et l'exécution des requêtes.
Bonnes pratiques techniques
Les meilleures pratiques techniques dépendent des technologies spécifiques Services AWS et de traitement que vous utilisez pour concevoir votre architecture centrée sur les données. Cependant, nous vous recommandons de garder à l'esprit les meilleures pratiques suivantes. Ces meilleures pratiques s'appliquent aux cas d'utilisation typiques du traitement des données.
Area |
Bonne pratique |
SQL |
Réduisez le volume de données à interroger en projetant des attributs sur vos données. Au lieu d'analyser la table entière, vous pouvez utiliser la projection de données pour scanner et renvoyer uniquement certaines colonnes requises dans la table. Évitez les jointures volumineuses si possible, car les jointures entre plusieurs tables peuvent avoir un impact significatif sur les performances en raison de leurs demandes gourmandes en ressources. |
Apache Spark |
Optimisez les applications Spark Optimisez la gestion de la mémoire |
Conception de base de données |
Suivez les meilleures pratiques en matière d'architecture pour les bases de données |
Élagage des données |
Utilisez l'élagage des partitions côté serveur avec le. |
Mise à l’échelle |
Comprenez et implémentez la mise à l'échelle horizontale |