最新のデータ中心アーキテクチャのユースケースを設計および実装するためのベストプラクティス - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

最新のデータ中心アーキテクチャのユースケースを設計および実装するためのベストプラクティス

Apoorva Patrikar、Amazon Web Services (AWS)

2023 年 5 月 (ドキュメント履歴)

アプリケーション中心アーキテクチャから脱却し、IT インフラストラクチャ、アプリケーション開発、さらにはビジネスプロセスがデータ要件を中心に設計されているデータ中心アーキテクチャを採用する組織が増えています。データ中心アーキテクチャでは、データはコア IT アセットであり、データを最適化するために IT システムとプロセスを設計します。

このガイドでは、ユースケースに合わせて最新のデータ中心アーキテクチャを設計するためのベストプラクティスを提供します。これらのベストプラクティスを使用して、データパイプライン、およびそのパイプラインをサポートするデータエンジニアリングオペレーションをモダナイズできます。このガイドでは、データパイプラインにおけるデータのライフサイクルの概要についても説明します。このライフサイクルを理解することで、データを最適化するデータパイプラインを構築できます。

このガイドを使用すると、データパイプライン用のデータ中心アーキテクチャを設計する際に多くの組織が直面する、以下のような課題を克服できます。

  • 同じデータセットの複数のバージョンを保存することへの嫌悪感 – データを何度も頻繁に処理するのは珍しいことではありませんが、このアプローチには制限があります。実は、多くの場合、データを何度も処理することを回避する方が、リソースを大量に消費することが減り、コスト効率も高くなります。このガイドでは、処理されたデータを複数のステージに分けて保存することに重点を置いた別のアプローチを採用する利点について説明します。

  • データレイクの採用に消極的 – データレイクに関するマーケティングクレームをかき分けて欲しい情報を見つけるのは難しい場合があります。また、組織がデータレイクを IT システムやプロセスに組み込むために必要なスキルやリソースがあるかどうかを見極めるのも難しい場合があります。このガイドは、データ中心アーキテクチャにおいてデータレイクがどのように便利なコンポーネントになり得るかを理解する助けになります。

  • 十分なデータエンジニアの雇用 – データサイエンティストは、たとえ適切なデータエンジニアリングスキルがなくても、データエンジニアリングタスクを実行するよう多くの組織で期待されていることが市場トレンドで示唆されています。このスキルギャップは、市場投入までの時間の計画に影響を与える可能性があります。このガイドは、データ中心アーキテクチャの設計に不可欠なデータエンジニアリングスキルを理解するのに役立ちます。

  • 水平処理に AWS のサービスを使用することに関する知識の欠如 – タスクを複数のノードにマッピングし、結果を収集してから透過的にユーザーに送信する水平処理または分散処理により、クラスターはデータを並列処理できるようになります。水平処理への移行は、データの表示方法と処理方法の変化を意味します。この変化は、アプリケーションロジックまたはアプリケーション自体だけでなく、組織がデータを扱う方法にも影響します。例えば、水平処理は、中央ストレージ、タスク分散、モジュール化に影響します。水平処理では、読み取り/書き込み操作のために大量のデータも優先されます。このガイドでは、水平処理がデータパイプラインでどのように機能するかについて説明します。