コンテンツ分野 1: データの取り込みと変換 - AWS Certified Data Engineer

コンテンツ分野 1: データの取り込みと変換

タスク 1.1: データ取り込みの実行

  • スキル 1.1.1: ストリーミングソースからデータを読み取る [Amazon Kinesis、Amazon Managed Streaming for Apache Kafka (Amazon MSK)、Amazon DynamoDB Streams、AWS Database Migration Service (AWS DMS)、AWS Glue、Amazon Redshift など]。

  • スキル 1.1.2: バッチソース からデータを読み取る (Amazon S3、AWS Glue、Amazon EMR、AWS DMS、Amazon Redshift、AWS Lambda、Amazon AppFlow など)。

  • スキル 1.1.3: バッチ取り込み用の適切な設定オプションを実装する。

  • スキル 1.1.4: データ API を利用する。

  • スキル 1.1.5: Amazon EventBridge、Apache Airflow、ジョブとクローラーの時間ベースのスケジュールのいずれかを使用してスケジューラをセットアップする。

  • スキル 1.1.6: イベントトリガーを設定する (Amazon S3 イベント通知、EventBridge など)。

  • スキル 1.1.7: Kinesis から Lambda 関数を呼び出す。

  • スキル 1.1.8: データソースへの接続を許可する IP アドレスの許可リストを作成する。

  • スキル 1.1.9: スロットリングを実装し、レート制限を克服する (DynamoDB、Amazon RDS、Kinesis など)。

  • スキル 1.1.10: ストリーミングデータ配信のファンイン/ファンアウトを管理する。

  • スキル 1.1.11: データ取り込みパイプラインの再現性について説明する。

  • スキル 1.1.12: ステートフルデータトランザクションとステートレスデータトランザクションを定義する。

タスク 1.2: データの変換と処理

  • スキル 1.2.1: パフォーマンスニーズに合わせてコンテナの使用を最適化する [Amazon Elastic Kubernetes Service (Amazon EKS)、Amazon Elastic Container Service (Amazon ECS) など]。

  • スキル 1.2.2: さまざまなデータソースに接続する [Java Database Connectivity (JDBC)、Open Database Connectivity (ODBC) など]。

  • スキル 1.2.3: 複数のソースからデータを統合する。

  • スキル 1.2.4: データ処理時のコストを最適化する。

  • スキル 1.2.5: 要件に基づいてデータ変換サービスを実装する (Amazon EMR、AWS Glue、Lambda、Amazon Redshift など)。

  • スキル 1.2.6: データの形式を変換する (.csv から Apache Parquet など)。

  • スキル 1.2.7: 一般的な変換エラーとパフォーマンス問題のトラブルシューティングとデバッグを行う。

  • スキル 1.2.8: AWS サービスを使用して、他のシステムからデータを使用できるようにするデータ API を作成する。

  • スキル 1.2.9: データのボリューム、速度、多様性を定義する (構造化データ、非構造化データなど)。

  • スキル 1.2.10: データ処理のために大規模言語モデル (LLM) を統合する。

タスク 1.3: データパイプラインのオーケストレーション

  • スキル 1.3.1: オーケストレーションサービスを使用してデータ ETL パイプラインのワークフローを構築する [Lambda、EventBridge、Amazon Managed Workflows for Apache Airflow (Amazon MWAA)、AWS Step Functions、AWS Glue ワークフローなど]。

  • スキル 1.3.2: パフォーマンス、可用性、スケーラビリティ、レジリエンス、耐障害性を実現するデータパイプラインを構築する。

  • スキル 1.3.3: サーバーレスワークフローを実装および保守する。

  • スキル 1.3.4: 通知サービスを使用してアラートを送信する [Amazon Simple Notification Service (Amazon SNS)、Amazon Simple Queue Service (Amazon SQS) など]。

タスク 1.4: プログラミングの概念の応用

  • スキル 1.4.1: コードを最適化してデータの取り込みと変換のランタイムを短縮する。

  • スキル 1.4.2: 同時実行性とパフォーマンスのニーズを満たすための Lambda 関数を設定する。

  • スキル 1.4.3: データエンジニアリングにプログラミング言語とフレームワークを使用する (Python、SQL、Scala、R、Java、Bash、PowerShell など)。

  • スキル 1.4.4: データエンジニアリングにソフトウェアエンジニアリングのベストプラクティスを使用する (バージョン管理、テスト、ログ記録、モニタリングなど)。

  • スキル 1.4.5: Infrastructure as Code (IaC) を使用してデータエンジニアリングソリューションをデプロイする。

  • スキル 1.4.6: AWS サーバーレスアプリケーションモデル (AWS SAM) を使用してサーバーレスデータパイプラインをパッケージ化およびデプロイする (Lambda 関数、Step Functions、DynamoDB テーブルなど)。

  • スキル 1.4.7: Lambda 関数内からストレージボリュームを使用およびマウントする。

  • スキル 1.4.8: 反復可能なリソースデプロイのために Infrastructure as Code (IaC) を使用する [AWS CloudFormation、AWSCloud Development Kit (AWS CDK) など]。

  • スキル 1.4.9: 継続的インテグレーションと継続的デリバリー (CI/CD) (データパイプラインの実装、テスト、デプロイ) について説明する。

  • スキル 1.4.10: 分散コンピューティングを定義する。

  • スキル 1.4.11: データ構造とアルゴリズムについて説明する (グラフデータ構造、ツリーデータ構造など)。