Zone d'atterrissage Couche brute Couche de scène Couche d'analyse

Nommer les compartiments Amazon S3 dans vos couches de données

Les sections suivantes fournissent des structures de dénomination pour les compartiments Amazon Simple Storage Service (Amazon S3) dans vos couches de lacs de données. Cependant, vous pouvez personnaliser les noms de compartiment et de chemin Amazon S3 en fonction des besoins de votre organisation. Nous vous recommandons de créer des compartiments distincts pour chaque couche individuelle, car les exigences en matière d'archivage, de versionnement, d'accès et de chiffrement peuvent varier d'une couche à l'autre.

Le schéma suivant montre la structure de dénomination recommandée pour les compartiments Amazon S3 dans les couches de lac de données recommandées. La structure de dénomination sépare plusieurs unités commerciales, formats de fichiers et partitions.

L'approche de dénomination varie pour les compartiments S3 en fonction de la couche de données à laquelle ils sont destinés.

Important

Les compartiments Amazon S3 doivent suivre les directives de dénomination énoncées dans les règles de dénomination des compartiments de la documentation Amazon S3.

Vous pouvez adapter les partitions de données en fonction des besoins de votre organisation. Cependant, vous devez utiliser des paires minuscules et clé-valeur (par exemple, year=yyyy au lieu deyyyy) afin de pouvoir mettre à jour le catalogue à l'aide de la commande. MSCK REPAIR TABLE

La définition d'une stratégie de partition dépend de la nature de vos données et, surtout, de la nature des requêtes de vos utilisateurs. Nous vous recommandons d'analyser les modèles de consommation et de traitement des données afin de trouver la stratégie la plus adaptée à votre organisation. En général, il est judicieux de fournir des niveaux hiérarchiques supérieurs, tels queyear=yyyy, et month=mmday=dd, sur la couche de données brutes et des niveaux hiérarchiques inférieurs sur les couches de données de consommation, telles que la couche d'étape et la couche d'analyse. Cela est dû au fait que les couches de données brutes ne présentent généralement pas les modèles de consommation complexes des pipelines de traitement de données.

Zone d'atterrissage (compartiment Amazon S3)

Vous avez besoin d'un compartiment Amazon S3 pour votre zone de landing zone si les ensembles de données sensibles contiennent des éléments qui doivent être masqués avant que les données ne soient déplacées vers le compartiment brut.

Le tableau suivant fournit la structure de dénomination, une description de la structure de dénomination et un exemple de nom pour le compartiment Amazon S3 dans votre couche de zone de landing zone.

Format de dénomination Exemple

Format de dénomination	Exemple
`s3://companyname-landingzoneawsregion-awsaccount\|uniqidenv/source/source_region/table/year=yyyy/month=mm/day=dd/table_<yearmonthday>.avro\|csv` `companyname`— Le nom de l'organisation (facultatif) `awsregion`— Le Région AWS, tel que `us-east-1` ou `sa-east-1` `awsaccount\|uniqid`— L'identifiant ou Compte AWS l'identifiant unique `env`— L'environnement de déploiement, tel que `devtest`, ou `prod` `source`— La source ou le contenu, tel que la base de données MySQL, le commerce électronique ou SAP `source_region`— Région commerciale mondiale, telle que `us` ou `asia` `table` : `tb_customer`, `tb_transactions` ou `tb_products`	`s3://anycompany-landingzoneuseast1-12345-dev/socialmedia/us/tb_products/year=2021/month=03/day=01/products_20210301.csv`

s3://companyname-landingzoneawsregion-awsaccount|uniqidenv/source/source_region/table/year=yyyy/month=mm/day=dd/table_<yearmonthday>.avro|csv

companyname— Le nom de l'organisation (facultatif)

awsregion— Le Région AWS, tel que us-east-1 ou sa-east-1

awsaccount|uniqid— L'identifiant ou Compte AWS l'identifiant unique

env— L'environnement de déploiement, tel que devtest, ou prod

source— La source ou le contenu, tel que la base de données MySQL, le commerce électronique ou SAP

source_region— Région commerciale mondiale, telle que us ou asia

table : tb_customer, tb_transactions ou tb_products

s3://anycompany-landingzoneuseast1-12345-dev/socialmedia/us/tb_products/year=2021/month=03/day=01/products_20210301.csv

Compartiment Amazon S3 à couche brute

La couche de données brutes contient des données ingérées qui n'ont pas été transformées et sont dans leur format de fichier d'origine, tel que JSON ou CSV. Ces données sont généralement organisées par source de données et par date à laquelle elles ont été ingérées dans le compartiment Amazon S3 de la couche de données brutes.

Le tableau suivant fournit la structure de dénomination, une description de la structure de dénomination et un exemple de nom pour le compartiment Amazon S3 dans votre couche de données brutes.

Format de dénomination Exemple

Format de dénomination	Exemple
`s3://companyname-raw-awsregion-awsaccount\|uniqid-env/source/source_region/table/year=yyyy/month=mm/day=dd/table_<yearmonthday>.avro\|csv` `companyname`— Le nom de l'organisation (facultatif) `awsregion`— Le Région AWS, tel que `us-east-1` ou `sa-east-1` `awsaccount\|uniqid`— L'identifiant ou Compte AWS l'identifiant unique `env`— L'environnement de déploiement, tel que `devtest`, ou `prod` `source`— La source ou le contenu, tel que la base de données MySQL, le commerce électronique ou SAP `source_region`— Région commerciale mondiale, telle que `us` ou `asia` `table` : `tb_customer`, `tb_transactions` ou `tb_products`	`s3://anycompany-raw-useast1-12345-dev/socialmedia/us/tb_products/year=2021/month=03/day=01/products_20210301.csv`

s3://companyname-raw-awsregion-awsaccount|uniqid-env/source/source_region/table/year=yyyy/month=mm/day=dd/table_<yearmonthday>.avro|csv

companyname— Le nom de l'organisation (facultatif)

awsregion— Le Région AWS, tel que us-east-1 ou sa-east-1

awsaccount|uniqid— L'identifiant ou Compte AWS l'identifiant unique

env— L'environnement de déploiement, tel que devtest, ou prod

source— La source ou le contenu, tel que la base de données MySQL, le commerce électronique ou SAP

source_region— Région commerciale mondiale, telle que us ou asia

table : tb_customer, tb_transactions ou tb_products

s3://anycompany-raw-useast1-12345-dev/socialmedia/us/tb_products/year=2021/month=03/day=01/products_20210301.csv

Compartiment Amazon S3 Stage Layer

Les données de la couche d'étape sont lues et transformées à partir de la couche brute (par exemple, à l'aide d'une tâche AWS Glue ou d'Amazon EMR). Ce processus valide les données (par exemple, en vérifiant les types de données et les en-têtes), puis les stocke dans un format de fichier prêt à être consommé, tel qu'Apache Parquet. Les métadonnées sont stockées dans une table du AWS Glue Data Catalog.

Le tableau suivant fournit la structure de dénomination, une description de la structure de dénomination et un exemple de nom pour le compartiment Amazon S3 dans votre couche de données de stage.

Format de dénomination Exemple

Format de dénomination	Exemple
`s3://companyname-stageawsregion-awsaccount\|uniqidenv/source/source_region/ business_unit/table/<partitions>/table_<table_name>_<yearmonthday>.snap` `companyname`— Le nom de l'organisation (facultatif) `awsregion`— Le Région AWS, tel que `us-east-1` ou `sa-east-1` `awsaccount\|uniqid`— L'identifiant ou Compte AWS l'identifiant unique `env`— L'environnement de déploiement, tel que `devtest`, ou `prod` `source`— La source ou le contenu, tel que la base de données MySQL, le commerce électronique ou SAP `source_region`— Région commerciale mondiale, telle que `us` ou `asia` `business_unit`— L'unité commerciale pour laquelle les données sont traitées `table` : `tb_customer`, `tb_transactions` ou `tb_products` `partitions`— Des partitions offrant les meilleures performances au consommateur, permettant au moteur de requêtes d'éviter les analyses complètes des données	`s3://anycompany-stagesaeast1-12345-dev/sap/br/customers/validated/dt=2021-03-01/table_customers_20210301.snappy.parquet py.parquet`

s3://companyname-stageawsregion-awsaccount|uniqidenv/source/source_region/ business_unit/table/<partitions>/table_<table_name>_<yearmonthday>.snap

companyname— Le nom de l'organisation (facultatif)

awsregion— Le Région AWS, tel que us-east-1 ou sa-east-1

awsaccount|uniqid— L'identifiant ou Compte AWS l'identifiant unique

env— L'environnement de déploiement, tel que devtest, ou prod

source— La source ou le contenu, tel que la base de données MySQL, le commerce électronique ou SAP

source_region— Région commerciale mondiale, telle que us ou asia

business_unit— L'unité commerciale pour laquelle les données sont traitées

table : tb_customer, tb_transactions ou tb_products

partitions— Des partitions offrant les meilleures performances au consommateur, permettant au moteur de requêtes d'éviter les analyses complètes des données

s3://anycompany-stagesaeast1-12345-dev/sap/br/customers/validated/dt=2021-03-01/table_customers_20210301.snappy.parquet py.parquet

Couche d'analyse (compartiment Amazon S3)

La couche d'analyse est similaire à la couche d'étape car les données sont dans un format de fichier traité, mais elles sont ensuite agrégées conformément aux exigences de votre organisation.

Le tableau suivant fournit la structure de dénomination, une description de la structure de dénomination et un exemple de nom pour le compartiment Amazon S3 dans votre couche de données d'analyse.

Format de dénomination Exemple

Format de dénomination	Exemple
`s3://companyname-analytics-awsregion-awsaccount\|uniqid-env/source_region/business_unit/tb_<region>_<table_name>_<file_format>/<partition_0>/<partition_1>/.../<partition_n>/xxxxx.<compression>.<file_format>` `companyname`— Le nom de l'organisation (facultatif) `awsregion`— Le Région AWS, tel que `us-east-1` ou `sa-east-1` `awsaccount\|uniqid`— L'identifiant ou Compte AWS l'identifiant unique `env`— L'environnement de déploiement, tel que `devtest`, ou `prod` `source`— La source ou le contenu, tel que la base de données MySQL, le commerce électronique ou SAP `source_region`— Région commerciale mondiale, telle que `us` ou `asia` `business_unit`— L'unité commerciale pour laquelle les données sont traitées `table` : `tb_customer`, `tb_transactions` ou `tb_products` `partitions`— Des partitions offrant les meilleures performances au consommateur, permettant au moteur de requêtes d'éviter les analyses complètes des données	`s3://anycompany-analytics-useast1-12345-dev/us/sales/tb_us_customers_parquet/<partitions>/part-000001-20218c886790.c000.snappy.parquet`

s3://companyname-analytics-awsregion-awsaccount|uniqid-env/source_region/business_unit/tb_<region>_<table_name>_<file_format>/<partition_0>/<partition_1>/.../<partition_n>/xxxxx.<compression>.<file_format>

companyname— Le nom de l'organisation (facultatif)

awsregion— Le Région AWS, tel que us-east-1 ou sa-east-1

awsaccount|uniqid— L'identifiant ou Compte AWS l'identifiant unique

env— L'environnement de déploiement, tel que devtest, ou prod

source— La source ou le contenu, tel que la base de données MySQL, le commerce électronique ou SAP

source_region— Région commerciale mondiale, telle que us ou asia

business_unit— L'unité commerciale pour laquelle les données sont traitées

table : tb_customer, tb_transactions ou tb_products

partitions— Des partitions offrant les meilleures performances au consommateur, permettant au moteur de requêtes d'éviter les analyses complètes des données

s3://anycompany-analytics-useast1-12345-dev/us/sales/tb_us_customers_parquet/<partitions>/part-000001-20218c886790.c000.snappy.parquet

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Couches de données recommandées

Mappage des buckets aux politiques IAM