データアーキテクチャ - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

データアーキテクチャ

目的に合ったデータおよび分析アーキテクチャを設計し、発展させます。

実用的なインサイトを得るには、優れた設計のデータおよび分析アーキテクチャが不可欠です。目的に合ったデータおよび分析アーキテクチャを設計し、発展させることで、複雑さ、コスト、技術的負債を軽減でき、増大し続けるデータから貴重なインサイトも得られます。AWS CAF の原則に従うと、既存のプラットフォームとシームレスに統合するデータアーキテクチャを構築できます。そのように CAF に沿った調整を行うことで、最新のデータ処理および分析技術がもたらす利点を活用できるのです。

データおよび分析アーキテクチャは、組織にとって、データから価値を引き出す能力のブループリントと言えます。また、新たなビジネスインサイトを得るのに役立ち、ビジネス成長の推進要因としても機能します。ビジネスニーズを満たすよう、データアーキテクチャをモダナイズするには、アーキテクチャを短期的および長期的なビジネス目標に沿うよう調整し、組織の文化的および状況的要件を独自に満たすものにしなければなりません。今日の世界において、成功したデータおよび分析アーキテクチャの実装と導入に共通しているのは、適切なデータを適切なコンシューマーが適切なタイミングで利用できるようにするという原則に基づいていることです。

以上を実現するには、どうすれば、データアセットの物理的または論理的なモデル化や、データ保護を行えるかに加え、どのようにして、こうしたデータモデルを相互連携させ、ビジネス上の問題への対処や、不明なパターンを導き出すことによるインサイトの生成を可能にするかを計画および整理します。

Start

包括的な能力を定義する

現在のビジネス環境で重要なのは、最新のデータ分析プラットフォームを使用して、データから価値を引き出し、組織内のさまざまなドメインに対応することです。最新のデータアーキテクチャでは、単一のデータアーキテクチャアプローチを採用するのではなく、特定のユースケース専用に構築され最適化されたツールセットやパターンを導入する必要があります。また、このアーキテクチャは、進歩させることができ、スケーラブルなデータレイク、専用の分析サービス、統合データアクセス、統合ガバナンスなどの基本的な機能で構成する必要もあります。

データゾーンを整理する

データアーキテクチャには、データの整理と保存によって迅速かつ簡単にアクセスできるようにする仕組み、という重要な側面があります。これを実現するには、データレイク内にカスタムデータゾーンを設定します。データゾーンは次のように分類します。

  • 異種ソースから収集した生データ

  • 各ドメインの分析ニーズを満たすために厳選および変換したデータ

  • レポートニーズに対応するためのユースケースや、製品ベースのデータマート

  • セキュリティとコンプライアンスの管理対象となっている外部公開データ

データの俊敏性確保および民主化を計画する

分析プラットフォームがいかに有効かは、データのプロビジョニング速度に加え、プロビジョニング済みデータを利用可能にするための民主化によって決まります。俊敏なデータプロビジョニングを実現するには、ユースケースに基づいてさまざまな方法でデータを取得および処理する機能をデータアーキテクチャに取り入れます。例えば、リアルタイムまたはほぼリアルタイムな処理、バッチやマイクロバッチによる処理、ハイブリッドな処理などです。また、データの民主化を実現するには、データ共有およびアクセスコントロールのワークフローを定義し、データスチュワードがそれをモニタリングするようにします。データを民主化するイネーブラーの 1 つとして、データマーケットプレイスの実装が挙げられます。

安全なデータ提供を定義する

最新のデータアーキテクチャは、外部からの影響を防ぐセキュリティ上の要塞である一方、従業員やデータユーザーによるアクセスを、職務規定のとおりに容易にする機能も果たしています。また、医療保険の相互運用性と説明責任に関する法律 (HIPAA)、個人を特定できる情報 (PII)、一般データ保護規則 (GDPR) といったコンプライアンス関連規制にも準拠しています。こうした機能を実現するには、ロールベースのアクセスコントロール (RBAC) およびタグベースのアクセスコントロール (TBAC) メソッドを使用し、AWS では、タグを使用してデータへのアクセスを制御し、アクセスコントロールの管理を簡素化します。以上のような機能を、AWS CAF セキュリティの視点で概説されている原則に従って実装します。

費用対効果を得るための計画を立てる

従来のデータウェアハウスでは、コンピューティングとストレージが緊密に結合されているうえ、リソース利用に高いコストが発生しますが、最新のアーキテクチャは、コンピューティングとストレージが切り離され、データライフサイクルに基づく階層型ストレージが実装されています。例えば、AWS では、Amazon Simple Storage Service (Amazon S3) を使用してコストを管理でき、データストレージをコンピューティングから切り離すことも可能です。Amazon S3 ストレージクラスは、さまざまなアクセスパターンに対し、最も低コストのストレージを提供するように特別に設計されています。さらに、AWSコンピューティングツール (Amazon AthenaAWS GlueAmazon RedshiftAmazon SageMaker Runtime など) は、サーバーレスであるため、インフラストラクチャの管理が不要で、課金は使用した分にのみ適用されます。 

高度化

最新のデータアーキテクチャは、データ活用の幅を広げることで強化できます。その用途は、ビジネスや運用上の能力をサポートする標準的な分析から、予測やインサイトに対応した複雑な機能に至るまで多岐にわたるでしょう。また、こうしたアーキテクチャは、迅速な意思決定にも有用です。これを実現するために、このアーキテクチャでは、以下のセクションで説明する能力がサポートされています。

特徴量エンジニアリングを理解する

特徴量エンジニアリングでは、機械学習を使用し、特徴量ストアや特徴量マートをセットアップします。また、データサイエンスチームが、教師あり学習モデルと教師なし学習モデルの両方に特徴量 (派生属性) を新規作成して、特徴量マートに保存します。これにより、変換を簡素化し、データ精度を高めます。複数の分析モデルで機能を再利用できるため、市場投入までの時間が短縮されます。

データセット非正規化の計画を立てる

非正規化データセットやデータマートを構築すると、必要なデータが 1 か所で簡単に利用できるようになるため、ビジネスユーザー向けデータセットが大幅に簡素化され、分析速度も向上します。慎重に設計していれば、1 つのレコードで複数の使用モデルに対応でき、開発ライフサイクル全体が短縮されます。非正規化データセットの効果的なガバナンスも、次の 2 つの理由で重要となります。1 つは、非正規化データを実装すると、冗長なデータセットが大量に作成され、大規模な管理が困難になりかねないことです。もう 1 つは、こうしたデータセットを適切にモデル化していない場合、再利用がますます難しくなる可能性があることです。 

移植性とスケーラビリティを設計する

大規模な組織の場合、すべてのアプリケーションとユーザーが 1 つのデータプラットフォームに配置されることはほとんどありません。一般的に、アプリケーションとデータストアは従来のオンプレミスプラットフォームとクラウドプラットフォームに分散されるため、分析チームでデータを混在させマージすることは困難です。そのため、ドメイン、地域、ビジネスユースケースなどの特性に基づいてデータをコンテナ化することをお勧めします。こうしたコンテナ化により、さまざまなプラットフォームとアプリケーション間の移植性が向上するうえ、データの利用も効果的に進みます。また、データをコンテナにセグメント化し、API を介して公開することで、データアーキテクチャのスケーリングがさらに容易になります。これによって、エンドツーエンドのハイブリッドデータフローが実現し、オンプレミスおよびクラウドベースのアプリケーションが、よりシームレスに稼働するようになります。

Excel

最新の分析アーキテクチャを組織内で発展させていく中で重要なのは、再利用可能な概念を導入し、そうした変更を管理することです。そのような概念があれば、持続性と採用率が向上し、コストも抑えられます。以下のセクションでは、どのような概念を考慮すべきかについて説明します。

設定可能なフレームワークを設計する

組織では、多くの場合、独自のビジネスニーズに対応するために、複雑なモデルが複数作成されます。こうしたモデルでは、複数のデータパイプラインや、エンジニアリングした特徴量を作成する必要があるため、時間の経過とともに冗長性が大幅に高まり、運用コストも増加します。設定可能でパラメータ駆動型のベースモデルセットを組み込んだフレームワークを作成すると、開発時間と運用コストを削減でき、分析エンジンに、こうした設定可能なモデルを実装することで、必要な結果を得られます。

統合分析エンジンの構築計画を立てる

ビジネス上の問題はそれぞれが異なり、多くの場合、技術のカスタマイズによって要件を満たす必要があるため、組織内に複数の分析エンジンが存在することになります。複数のプログラミングパラダイムに対応した、AI ベースの統合分析エンジンインターフェイスを設計および開発すると、使用が簡素化され、コストも減少します。

DataOps を定義する

データプロフェッショナルのほとんどが、適切なデータの特定、変換、モデリングといったデータオペレーションの実行に、かなりの時間をかけています。アジャイルなデータオペレーション (DataOps) を導入すると、データエンジニア、データサイエンティスト、データ所有者、アナリストのサイロ化が解消されるため、データアーキテクチャを大幅に強化できます。DataOps は、チーム間のコミュニケーション向上、サイクル時間の短縮、高いデータ品質の確保を可能にします。ビジネスニーズが変化し技術が進歩する中で、データおよび分析アーキテクチャには、時間の経過とともにさまざまな変化が生じています。組織も、ビジネスをサポートできるよう、データおよび分析アーキテクチャの開発、実装、維持に努め、それらを徐々に発展させる必要があります。