PERF04-BP01 データの特性を理解する - AWS Well-Architected Framework

PERF04-BP01 データの特性を理解する

ワークロードのデータセットの特性、アクセスパターン、要件に最適なデータ管理ソリューションを選択します。データ管理ソリューションの選択および実装には、クエリ、スケーリング、ストレージの特性がワークロードのデータの要件をサポートしていることを確認する必要があります。さまざまなデータベースオプションがデータモデルにどのように適合するか、またユースケースに最適な構成オプションについて学びます。 

AWS では、リレーショナル、key-value、ドキュメント、インメモリ、グラフ、時系列、台帳データベースなど多数のデータベースエンジンを提供しています。各データ管理ソリューションには、ユースケースとデータモデルをサポートするために使用できるオプションと設定があります。ワークロードでは、データの特性に応じて、いくつかの異なるデータベースソリューションを使用できる場合があります。特定の問題に最適なデータベースソリューションを選択することで、限定的な画一的アプローチのモノリシックなデータベースから脱却し、顧客のニーズに合わせたデータ管理に専念できます。

期待される成果: ワークロードのデータ特性が文書化され、サポートするデータベースソリューションの選択と設定を容易にし、考えられる代替手段についての洞察を得るのに十分な詳細が提供されます。

一般的なアンチパターン:

  • 大規模なデータセットを同様の特性を持つ小さなデータコレクションにセグメント化する方法を考慮していないため、データと成長の特性により適した、目的に特化したデータベースを使用する機会が失われている。

  • データアクセスパターンを前もって特定せず、複雑でコストのかかる作業をやり直すことになる。

  • 必要に応じて迅速にスケールしないデータストレージ戦略を使用することで成長を制限している。

  • すべてのワークロードに対して 1 つのデータベースタイプとベンダーを選択する。

  • 特定のタイプのデータベースソリューションに関する社内知識と経験があるため、1 つのデータベースソリューションに固執する。

  • オンプレミス環境でうまく機能したことを理由にデータベースソリューションをキープする。

このベストプラクティスを活用するメリット: さまざまなワークロードに適したデータベースソリューションを決定できるように、すべての AWS データベースソリューションについての知識を身に付けておきます。ワークロードに適したデータベースソリューションを選択したら、各データベースサービスを簡単に試し、ワークロードのニーズを満たし続けているかどうかを判断できます。

このベストプラクティスを活用しない場合のリスクレベル:

  • 実現可能なコスト削減が特定できない可能性がある。

  • データを適切なレベルでセキュリティ保護できない可能性がある。

  • データアクセスおよびストレージパフォーマンスが最適でない可能性がある。

実装のガイダンス

ワークロードのデータの特性とアクセスパターンを定義します。利用できるデータベースソリューションを確認し、どのソリューションがデータ要件をサポートするかを特定します。1 つのワークロードに対して、複数のデータベースを選択できます。各サービスまたはサービスのグループを審査し、個別に評価します。代替として利用可能なデータ管理ソリューションがデータの一部またはすべてに対して特定された場合は、コスト、セキュリティ、パフォーマンス、信頼性における利点を引き出す可能性のある代替の実装を試してみます。新しいデータ管理のアプローチを導入する場合は、既存のドキュメントを更新します。

タイプ AWS のサービス 主な特徴 一般的なユースケース
リレーショナル Amazon RDS、Amazon Aurora 参照整合性、ACID トランザクション、Schema-On-Write ERP、CRM、市販のソフトウェア
key-value Amazon DynamoDB 高スループット、低レイテンシー、ほぼ無限のスケーラビリティ ショッピングカート (e コマース)、製品カタログ、チャットアプリケーション
ドキュメント Amazon DocumentDB JSON ドキュメントを保存し任意の属性でクエリを実行する コンテンツ管理 (CMS)、顧客プロファイル、モバイルアプリケーション
インメモリ Amazon ElastiCache、Amazon MemoryDB ミリ秒のレイテンシー キャッシュ、ゲームのリーダーボード
グラフ Amazon Neptune データ間のリレーションに意味がある関係性の高いデータ ソーシャルネットワーク、パーソナライゼーションエンジン、不正検出
時系列 Amazon Timestream プライマリディメンションが時刻のデータ DevOps、IoT、モニタリング
ワイドカラム Amazon Keyspaces Cassandra ワークロード 産業機器のメンテナンス、ルートの最適化
台帳 Amazon QLDB 不変で暗号的に検証可能な変更の台帳 記録システム、医療、サプライチェーン、金融機関

実装手順

  1. データはどのように構造化されていますか (非構造化、key-value、半構造化、リレーショナルなど)。

    1. データが構造化されていない場合は、 Amazon S3 などのオブジェクトストアか、 Amazon DocumentDB などの NoSQL データベースを検討します。

    2. key-value データの場合は、 DynamoDBElastiCache for Redis または MemoryDB を検討します。

    3. データがリレーショナル構造を持っている場合、どのレベルの参照整合性が必要ですか。

      1. 外部キー制約の場合は、 Amazon RDS および Aurora などのリレーショナルデータベースがこのレベルの整合性を提供できます。

      2. 通常、NoSQL データモデル内では、データをドキュメントまたはテーブルをまたいで結合するのではなく、単一のドキュメントまたはドキュメントのコレクションに非正規化して、単一のリクエストで取得します。 

  2. ACID (atomicity、consistency、isolation、durability) への準拠は必要ですか。

    1. リレーショナルデータベースに関連付けられている ACID プロパティが必要な場合は、 Amazon RDS および Aurora などのリレーショナルデータベースを検討します。

  3. どのような一貫性モデルが必要ですか。

    1. アプリケーションが結果整合性を許容できる場合は、NoSQL の実装を検討します。他の特性を確認して、最適な NoSQL データベース を選びます。

    2. 強整合性が必要な場合は、 DynamoDB または Amazon RDSなどのリレーショナルデータベースで強力な整合性のある読み込みを使用できます。

  4. どのような形式のクエリと結果をサポートする必要がありますか (SQL、CSV、Parque、Avro、JSON など)。

  5. どのようなデータ型、フィールドサイズ、および全体の量が存在しますか (テキスト、数値、空間、時系列計算、バイナリまたはブロブ、ドキュメントなど)。

  6. ストレージ要件は時間の経過とともにどのように変化しますか。 これにより、スケーラビリティにどのような影響がありますか。

    1. サーバーレスデータベース ( DynamoDB および Amazon Quantum Ledger Database など) は、ほぼ無制限のストレージまで動的にスケールアップします。

    2. リレーショナルデータベースには、プロビジョニングされたストレージに上限があり、多くの場合、この上限に達すると、シャーディングなどのメカニズムを介して水平方向に分割する必要があります。

  7. 書き込みクエリに対する読み取りクエリの割合はどのくらいですか。 キャッシングによってパフォーマンスが向上する可能性はありますか。

    1. 読み取り負荷の高いワークロードでは、キャッシングレイヤーを使用することでメリットが得られます。これには、 ElastiCache または DAX (データベースが DynamoDB の場合) などがあります。

    2. 読み取りは、 Amazon RDSなどのリレーショナルデータベースを使用して読み取りレプリカにオフロードすることもできます。

  8. ストレージや変更 (OLTP - オンライントランザクション処理) または取得やレポート (OLAP - オンライン分析処理) のどちらが優先されますか。

    1. 高スループットのトランザクション処理については、DynamoDB や Amazon DocumentDB などの NoSQL データベースを検討します。

    2. 分析クエリの場合は、 Amazon Redshift などの列指向データベースを検討するか、データを Amazon S3 にエクスポートして Athena または QuickSight を使用して分析を実行することを検討します。

  9. このデータの機密性はどの程度で、どのようなレベルの保護と暗号化が必要ですか。

    1. すべての Amazon RDS および Aurora エンジンは、AWS KMS を使用した保管時のデータ暗号化をサポートしています。Microsoft SQL Server と Oracle では、Amazon RDS を使用する場合、ネイティブの Transparent Data Encryption (TDE) もサポートします。

    2. DynamoDB の場合、 IAM できめ細かなアクセス制御 (FGAC) を使用し、誰がどのデータにアクセスできるかをキーレベルで制御できます。

  10. データにはどのレベルの耐久性が必要ですか。

    1. Aurora は、リージョン内の 3 つのアベイラビリティーゾーンにわたってデータを自動的に複製します。これはつまり、データの耐久性が高く、データ損失の可能性が低くなることを意味します。

    2. DynamoDB は、複数のアベイラビリティーゾーンに自動的に複製され、高可用性とデータ耐久性を提供します。

    3. Amazon S3 は、99.9999999% (イレブンナイン) の耐久性を提供します。Amazon RDS や DynamoDB などの多くのデータベースサービスでは、長期的な保持とアーカイブの目的で、Amazon S3 へのデータのエクスポートをサポートしています。

  11. すべきこと 目標復旧時間 (RTO) または目標復旧時点 (RPO) の要件はソリューションに影響しますか。

    1. Amazon RDS、Aurora、DynamoDB、Amazon DocumentDB、Neptune はすべて、ポイントインタイムリカバリとオンデマンドのバックアップと復元をサポートしています。 

    2. 高可用性の要件については、DynamoDB テーブルを グローバルテーブル 機能を使用してグローバルに複製でき、Aurora クラスターを Global Database 機能を使用して複数のリージョンでレプリケートできます。さらに、S3 バケットは、クロスリージョンレプリケーションを使用して AWS リージョン 間で複製できます。 

  12. 商用データベースエンジンやライセンスコストから離れたいという希望はありますか。

    1. Amazon RDS または Aurora で PostgreSQL や MySQL などのオープンソースのエンジンを検討します。

    2. 商用データベースエンジンからオープンソースへの移行を行うには、 AWS DMS および AWS SCT を利用します。

  13. データベースには運用上どのようなことが期待されますか。 マネージドサービスへの移行は主な懸念事項ですか。

    1. Amazon EC2 の代わりに Amazon RDS を利用し、NoSQL データベースをセルフホスティングする代わりに DynamoDB または Amazon DocumentDB を利用することで、運用上の諸経費を削減できます。

  14. データベースへのアクセスは現在どのように行われていますか。 アプリケーションアクセスのみですか、それともビジネスインテリジェンス (BI) ユーザーやその他の接続された既製アプリケーションが存在しますか。

    1. 外部ツールに依存している場合は、ツールがサポートするデータベースとの互換性を維持することが必要になる場合があります。Amazon RDS は Microsoft SQL Server、Oracle、MySQL、PostgreSQL など、サポートするさまざまなエンジンバージョンとの完全な互換性があります。

  15. 以下は、利用可能なデータ管理サービスのリストと、その最適な使用場所です。

    1. リレーショナルデータベースは、定義済みのスキーマとそれらの関係を使用してデータを格納します。これらのデータベースは、ACID (atomicity、consistency、isolation、durability) トランザクションをサポートし、参照整合性と強固なデータ整合性を維持するように設計されています。従来のアプリケーション、エンタープライズリソースプランニング (ERP)、顧客関係管理 (CRM)、e コマースの多くは、リレーショナルデータベースを使用してデータを保存します。これらのデータベースエンジンの多くは Amazon EC2 で実行することも、AWS のマネージド データベースサービスAmazon Aurora、 Amazon RDS、または Amazon Redshift) から選ぶこともできます。

    2. キー値データベースは、一般的に大量のデータを保存および取得するために、一般的なアクセスパターン用に最適化されています。これらのデータベースは、極端な量の同時リクエストでさえも、迅速な応答時間を実現します。高トラフィックのウェブアプリケーション、e コマースシステム、ゲーミングアプリケーションは、key-value データベースの典型的なユースケースです。AWS では、 Amazon DynamoDBを利用することができます。これはマルチリージョンとマルチマスターに対応し、耐久性に優れたフルマネージドデータベースで、インターネットスケールのアプリケーションに対応した、組み込みのセキュリティ、バックアップと復元の機能、インメモリキャッシュを備えています

    3. インメモリデータベースは、データへのリアルタイムアクセス、最小のレイテンシー、最大のスループットが必要なアプリケーションに使用されます。これらのデータベースは、データをメモリ内に直接保存することにより、ミリ秒単位のレイテンシーでは不十分なアプリケーションにマイクロ秒単位のレイテンシーを提供します。インメモリデータベースは、アプリケーションキャッシング、セッション管理、ゲームのリーダーボード、および地理空間アプリケーションに使用できます。 Amazon ElastiCache は、フルマネージド型のインメモリデータストアで、 Redis または Memcachedと互換性があります。アプリケーションの耐久性要件も高い場合、超高速パフォーマンス用の耐久性のあるインメモリデータベースサービスである Amazon MemoryDB for Redis  がこれを組み合わせて提供します。

    4. ドキュメントデータベースは、半構造化データを JSON 型のドキュメントとしとして保存するように設計されています。これらのデータベースは、開発者がコンテンツ管理、カタログ、およびユーザープロファイルなどのアプリケーションをすばやく構築し、更新するために役立ちます。 Amazon DocumentDB  は、高速で、スケーラブル、かつ高可用性の完全マネージド型ドキュメントデータベースサービスで、MongoDB ワークロードに対応しています。

    5. ワイドカラムデータストアは NoSQL データベースの一種です。テーブル、行、および列を使用しますが、リレーショナルデータベースとは異なり、同じテーブル内でも列の名前と形式が行ごとに異なる場合があります。ワイドカラムデータストアは通常、設備保全、フリート管理、およびルート最適化のための大規模な産業アプリケーションでの使用が見られます。 Amazon Keyspaces (Apache Cassandra 向け)  は、ワイドカラムにスケールできる、可用性に優れたマネージド型の Apache Cassandra 互換データベースサービスです。

    6. グラフデータベースは、関連性が高いグラフデータセット間における何百万もの関係を、大規模に、かつミリ秒単位のレイテンシーでナビゲートし、クエリする必要があるアプリケーション向けのデータベースです。多くの企業が、不正行為検出、ソーシャルネットワーキング、およびレコメンデーションエンジン向けにグラフデータベースを使用しています。 Amazon Neptune は、高速で信頼性に優れたフルマネージド型のグラフデータベースサービスで、関連性が高いデータセットを処理するアプリケーションの構築と実行を容易にします。

    7. 時系列データベースは、時間の経過と共に変化するデータを効率的に収集、合成し、それらからインサイトを導き出します。時系列データベースは、IoT アプリケーション、DevOps、および産業用テレメトリに利用できます。 Amazon Timestream は、IoT および運用アプリケーション向けの高速でスケーラブルなフルマネージド型の時系列データベースサービスで、1 日あたり数兆件のイベントの保存と分析を容易にします。

    8. 台帳データベースは、あらゆるアプリケーションについて、トランザクションのスケーラブルでイミュータブル、かつ暗号的な検証が可能なレコードを維持する信頼された中央機関を提供します。台帳データベースは、SoR、サプライチェーン、登録、および銀行取引にも使用されています。 Amazon Quantum Ledger Database (Amazon QLDB) はフルマネージド型の台帳データベースで、信頼された中央機関によって所有される、透過的でイミュータブル、かつ暗号的な検証が可能なトランザクションログを提供します。Amazon QLDB は、すべてのアプリケーションのデータ変更を追跡し、経時的な変更の完全で検証可能な履歴を維持します。

実装計画に必要な工数レベル: ワークロードがあるデータベースソリューションから別のデータベースソリューションに移行する場合は、アプリケーションのリファクタリングに  程度の工数が必要になる可能性があります。  

リソース

関連ドキュメント:

関連動画:

関連サンプル: