一般的なスケーリングの課題

データレイクは、最初のデプロイ後にデータが大きくなると、いくつかの段階を経ます。スケーラブルアーキテクチャを使用してデータレイクを設計しなかった場合、組織は課題に遭遇し、データレイクの成長によって不利になる可能性があります。

以下のセクションでは、一般的なデータレイクの成長がスケーリングの課題を引き起こす方法について説明します。

データレイクの初期デプロイ

次の図は、基幹業務 A による最初のデプロイ後のデータレイクのアーキテクチャを示しています。

この図は、次のコンポーネントを示しています。

データプロデューサーアカウントは、データを収集して処理し、処理されたデータを保存して、消費用に準備します。
データプロデューサーアカウントのデータは、複数のデータレイヤーを持つことができる Amazon Simple Storage Service (Amazon S3) バケットに保存されます。
データ処理に AWS サービス ( AWS Glueや Amazon EMR など) を使用できます。
データプロデューサーは、データレイクでデータを生成して保存するだけでなく、データコンシューマーと共有するデータとその共有方法を決定する必要があります。は、データプロデューサーからデータコンシューマーへのクロスアカウントデータ共有を管理するだけでなく、データプロデューサーアカウントでデータレイク AWS Lake Formation を管理します。
データコンシューマーアカウントは、特定のビジネスユースケースのためにデータプロデューサーアカウントの共有データを消費します。

データコンシューマーの増加

次の図は、基幹業務 A のデータが増えると、より多くのデータがデータレイクに取り込まれることを示しています。その後、データレイクはより多くのデータコンシューマーを惹きつけ、データを活用してデータから価値を得ます。

データレイクのデータプロデューサーがデータを増やすと、データコンシューマーの数も増えます。

この図は、組織が既存のデータアセットからほぼ継続的な値を生成する方法と、より多くのデータコンシューマーを引き付ける方法を示しています。ただし、データコンシューマーが増加すると、データプロデューサーにはこの増加に対応するための次の 2 つのオプションしかありません。

個々のデータコンシューマーによるデータ共有とアクセスを手動で管理します。これはスケーラブルなアプローチではありません。
データ共有とデータアクセスの管理のための自動または半自動プロセスを開発します。これはスケーラブルなオプションかもしれませんが、内部データコンシューマーと外部データコンシューマーのセキュリティ管理要件が異なるため、設計と構築には多大な時間と労力が必要です。今後、ソリューションの改善には追加の時間と労力も必要になります。

データプロデューサーの増加

次の図は、複数の事業部門がデータプロデューサーとして参加する場合のデータレイクアーキテクチャを示しています。

複数の事業部門がデータプロデューサーとして参加する場合のデータレイクのアーキテクチャ。

データレイクのアーキテクチャは、3 つのデータプロデューサーと 3 つのデータコンシューマーだけでも、ますます複雑になります。

各データプロデューサーは、複数のデータコンシューマーのデータ共有とデータアクセス管理を処理する必要があります。すべてのデータプロデューサーがデータ共有とデータアクセス管理のための自動または半自動プロセスを開発することは現実的ではありません。一部のデータプロデューサーは、データを共有しないことを選択するため、コストがかからない管理オーバーヘッドを回避できます。同様に、各データコンシューマーは、さまざまなデータ消費プロセスを理解するために、複数のデータプロデューサーとやり取りする必要があります。つまり、個々のデータコンシューマーは、さまざまなデータ共有パターンを処理するための管理オーバーヘッドが増加しています。

多くの組織では、このデータレイクはボトルネックを引き起こし、成長やスケールができません。これは、ボトルネックを取り除くために組織がデータレイクを再設計および再構築する必要があることを意味します。これにより、多大な時間、リソース、コストがかかる可能性があります。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

序章

リファレンスアーキテクチャ