で成長とスケーリングのためのデータレイクの設計 AWS クラウド

Wei Shao、Amazon Web Services (AWS)

2021 年 10 月 (ドキュメント履歴)

組織は、データモダナイゼーション戦略の一環として、アマゾンウェブサービス (AWS) クラウド上のデータレイクの設計と構築を進めています。データレイクは、構造化データと非構造化データをあらゆる規模で保存し、さまざまな内部ユーザーと外部ユーザーが利用できるリポジトリです。

ただし、増大するビジネスユースケースに対応するデータレイクにデータを取り込むには、かなりの時間と労力がかかる場合があります。コストを削減し、データから生成される価値を最大化するために、多くの組織はデータレイクへのデータの 1 回限りの取り込みを計画し、このデータを複数回消費します。データレイクが大きくなったときにビジネスステークホルダーに価値を提供するには、データの生産、共有、消費に合わせてスケールするデータレイクアーキテクチャを設計することが重要です。

スケーラブルなデータレイクアーキテクチャは、データレイクからより多くのデータを取り込むと同時に価値を得るための強固な基盤を組織に提供します。スケーラビリティの制約により、速度が低下したり中断されたりすることなくデータインサイトを継続的に取得することで、スケーラブルなデータレイクは組織の競争力を維持するのにも役立ちます。

通常、データレイクにはデータプロデューサーとデータコンシューマーがあります。データプロデューサーは、データドメインからデータを収集、処理、保存することでデータアセットを作成します。これらの集合データアセットは、データレイクのコンテンツを形成します。データプロデューサーは、データアセットをデータレイクのデータコンシューマーと選択的に共有することを選択できます。

データコンシューマーは、ビジネスユースケースを達成するためにデータプロデューサーからのデータを必要とし、このデータを独自のデータと組み合わせることもあります。データプロデューサーとデータコンシューマーは通常、組織の一部ですが、必ずしもそうではありません。重要なのは、データプロデューサーまたはデータコンシューマーの両方を同時に指定できることです。

スケーラブルなデータレイクアーキテクチャは、次の成果を達成するのに役立ちます。

データプロデューサーは、データ共有プロセス全体を維持する必要なく、大規模にオンボードします。これにより、データプロデューサーはデータをデータレイクにオンボードし、データドメインからのデータの収集、処理、保存に集中できます。
データコンシューマーは、全体的なコストと管理オーバーヘッドを増やすことなく、複数のデータプロデューサーのデータにアクセスできます。

このガイドでは、組織がデータレイクを成長させるときに発生する可能性がある一般的なスケーリングの課題について説明し、データレイクリファレンスアーキテクチャを提供し、データプロデューサーとデータコンシューマーをオンボーディングしてアクセス権を付与するためのアプローチの概要を説明します。このガイドのデータレイクリファレンスアーキテクチャは、が提供するさまざまな機能を活用していますAWS Lake Formation。このガイドは、エンタープライズデータアーキテクト AWS クラウド、データプラットフォームアーキテクト、デザイナー、データドメインリードなど、のデータレイクの設計を担当するチームを対象としています。

ターゲットを絞ったビジネス成果

で成長とスケールのためのデータレイクを設計した後、次の 3 つの結果が期待されます AWS クラウド。

組織内の複数の事業部門におけるデータ共有とデータ消費のオーバーヘッドを軽減します。
組織が外部データプロデューサーを含め、データレイク内でデータを共有するのに役立つ、安全で一貫性のあるアプローチ。
スケーラビリティの制約により、速度が低下したり中断されたりすることなく、データインサイトを継続的に取得します。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

一般的なスケーリングの課題