翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
データレイクレイヤーの Amazon S3 バケットとパス名の定義
Andres Cantor、Amazon Web Services
2025 年 4 月 (ドキュメント履歴)
このガイドは、 でホストされているデータレイクで Amazon Simple Storage Service (Amazon S3) バケットとパスの一貫した命名基準を作成するのに役立ちます AWS クラウド。このガイドの Amazon S3 バケットとパスの命名基準は、データレイクのガバナンスとオブザーバビリティを向上させ、データレイヤー別にコストを特定し AWS アカウント、 AWS Identity and Access Management (IAM) ロールとポリシーの命名方法を提供します。
データレイクには少なくとも 3 つのデータレイヤーを使用し、各レイヤーは個別の Amazon S3 バケットを使用することをお勧めします。ただし、生成して保存するデータ型によっては、追加の Amazon S3 バケットとデータレイヤーが必要になるユースケースもあります。たとえば、機密データを保存する場合は、ランディングゾーンのデータレイヤーと別の Amazon S3 バケットを使用することをお勧めします。次のリストは、データレイクに推奨される 3 つのデータレイヤーを示しています。
-
Raw データレイヤー – raw データが含まれ、データが最初に取り込まれるレイヤーです。可能であれば、元のファイル形式を保持し、Amazon S3 バケットでバージョニングを有効にすることをお勧めします。
-
ステージデータレイヤー – 消費用に最適化された中間処理データ (CSV から Apache Parquet に変換された未加工ファイルやデータ変換など) が含まれます。 AWS Glue ジョブは raw レイヤーからファイルを読み取り、データを検証します。次に、 AWS Glue ジョブは Apache Parquet 形式のファイルにデータを保存し、メタデータは のテーブルに保存されます AWS Glue Data Catalog。
-
分析データレイヤー – Apache Parquet など、特定のユースケースの集計データをすぐに使用できる形式で格納します。
対象者
このガイドの推奨事項は、サーバーレスデータレイクフレームワーク (SDLF) を使用してデータレイク
このガイドには、以下のセクションが含まれています。
ターゲットを絞ったビジネス成果
のデータレイクに Amazon S3 バケットとパスの命名基準を実装した後、次の結果が期待されます AWS クラウド。
-
バケットに差別化されたアクセスポリシーを提供できるようにすることで、データレイクのガバナンスを改善
-
Amazon S3 バケット名で関連する AWS アカウント ID AWS アカウント を使用し、バケットのコスト配分タグを使用してデータレイヤーの全体的なコストを可視化
-
レイヤーベースのバージョニングとパスベースのライフサイクルポリシーを使用した、コスト効率の高いデータストレージ
-
データマスキングとデータ暗号化のセキュリティ要件を満たす
-
開発者が基盤となるデータストレージ AWS アカウント の AWS リージョン と を可視化できるようにすることで、データソースのトレースを簡素化する