コンテンツ分野 2: データストア管理 - AWS Certified Data Engineer

コンテンツ分野 2: データストア管理

タスク 2.1: データストアの選択

  • スキル 2.1.1: 特定のコストとパフォーマンスの要件に適したストレージサービスを実装する [Amazon Redshift、Amazon EMR、AWS Lake Formation、Amazon RDS、Amazon DynamoDB、Amazon Kinesis Data Streams、Amazon Managed Streaming for Apache Kafka (Amazon MSK) など]。

  • スキル 2.1.2: 特定のアクセスパターンと要件に適したストレージサービスを設定する (Amazon Redshift、Amazon EMR、Lake Formation、Amazon RDS、DynamoDB など)。

  • スキル 2.1.3: ストレージサービスを適切なユースケースに適用する [Hierarchical Navigable Small Worlds (HNSW) などのインデックス作成アルゴリズムと Amazon Aurora PostgreSQL の使用、キーと値のペアに迅速にアクセスするための Amazon MemoryDB の使用など]。

  • スキル 2.1.4: データ処理システムに移行ツールを統合する (AWS Transfer Family など)。

  • スキル 2.1.5: データ移行またはリモートアクセス方法を実装する (Amazon Redshift フェデレーテッドクエリ、Amazon Redshift マテリアライズドビュー、Amazon Redshift Spectrum など)。

  • スキル 2.1.6: ロックを管理してデータへのアクセスを防ぐ (Amazon Redshift、Amazon RDS など)。

  • スキル 2.1.7: オープンテーブルフォーマットを管理する (Apache Iceberg など)。

  • スキル 2.1.8: ベクトルインデックスのタイプについて説明する (HNSW、IVF など)。

タスク 2.2: データカタログシステムの理解

  • スキル 2.2.1: データカタログを使用してデータソースのデータを利用する。

  • スキル 2.2.2: 技術データカタログを構築および参照する (AWSGlue Data Catalog、Apache Hive メタストアなど) 。

  • スキル 2.2.3: スキーマを検索し、AWS Glue クローラーを使用してデータカタログに入力する。

  • スキル 2.2.4: パーティションとデータカタログを同期する。

  • スキル 2.2.5: カタログ用の新しいソース接続またはターゲット接続を作成する (AWS Glue など)。

  • スキル 2.2.6: ビジネスデータカタログを作成および管理する (Amazon SageMaker Catalog など)。

タスク 2.3: データのライフサイクルの管理

  • スキル 2.3.1: Amazon S3 と Amazon Redshift の間でデータを移動するためのロードおよびアンロード操作を実行する。

  • スキル 2.3.2: S3 データのストレージ階層を変更するための S3 ライフサイクルポリシーを管理する。

  • スキル 2.3.3: S3 ライフサイクルポリシーを使用して特定の期限に達したデータを無効化する。

  • スキル 2.3.4: S3 バージョニングと DynamoDB TTL を管理する。

  • スキル 2.3.5: ビジネス要件および法的要件を満たすためにデータを削除する。

  • スキル 2.3.6: 適切なレジリエンスと可用性でデータを保護する。

タスク 2.4: データモデルとスキーマの進化の設計

  • スキル 2.4.1: Amazon Redshift、DynamoDB、Lake Formation のスキーマを設計する。

  • スキル 2.4.2: データ特性の変化に対処する。

  • スキル 2.4.3: スキーマ変換を実行する [AWS Schema Conversion Tool (AWS SCT) や AWS Database Migration Service (AWS DMS) の使用など]。

  • スキル 2.4.4: AWSツール (Amazon SageMaker ML Lineage Tracking、Amazon SageMaker Catalog など) を使用してデータリネージュを確立する。

  • スキル 2.4.5: インデックス作成、パーティショニング戦略、圧縮、その他のデータ最適化手法のベストプラクティスについて説明する。

  • スキル 2.4.6: ベクトル化の概念 (Amazon Bedrock ナレッジベースなど) について説明する。