コンテンツ分野 1: 機械学習 (ML) のためのデータ準備 - AWS Certified Machine Learning Engineer

コンテンツ分野 1: 機械学習 (ML) のためのデータ準備

タスク 1.1: データを取り込んで保存する。

対象知識:

  • データ形式と取り込みメカニズム (検証済みフォーマットと未検証フォーマット、Apache Parquet、JSON、CSV、Apache ORC、Apache Avro、RecordIO など)

  • AWS の主要なデータソース [Amazon S3、Amazon Elastic File System (Amazon EFS)、Amazon FSx for NetApp ONTAP など] の使用方法

  • AWS のストリーミングデータソース (Amazon Kinesis、Apache Flink、Apache Kafka など) を使用してデータを取り込む方法

  • AWS のストレージオプション (ユースケースとトレードオフなど)

対象スキル:

  • 関連する AWS のサービスオプション (Amazon S3 Transfer Acceleration、Amazon EBS プロビジョンド IOPS など) を使用してストレージ [Amazon S3、Amazon Elastic Block Store (Amazon EBS)、Amazon EFS、Amazon RDS、Amazon DynamoDB など] からデータを抽出する。

  • データアクセスパターンに基づいて適切なデータ形式 (Parquet、JSON、CSV、ORC など) を選択する。

  • Amazon SageMaker Data Wrangler および SageMaker Feature Store にデータを取り込む。

  • 複数のソースからデータをマージする (プログラミング手法、AWS Glue、Apache Spark の使用などによる)。

  • 容量とスケーラビリティに関係するデータ取り込みとストレージの問題をトラブルシューティングおよびデバッグする。

  • コスト、パフォーマンス、データ構造に基づいてストレージに関する初期考慮事項を決定する。

タスク 1.2: データを変換し、特徴量エンジニアリングを実行する。

対象知識:

  • データクリーニングおよびデータ変換の手法 (外れ値の検出と処理、欠損データの補完、結合、重複排除など)

  • 特徴量エンジニアリング手法 (データのスケーリングと標準化、特徴量分割、ビニング、ログ変換、正規化など)

  • エンコーディング手法 (ワンホットエンコーディング、バイナリエンコーディング、ラベルエンコーディング、トークン化など)

  • データと特徴量を調査、可視化、変換するためのツール (SageMaker Data Wrangler、AWS Glue、AWS Glue DataBrew など)

  • ストリーミングデータを変換するサービス (AWS Lambda、Spark など)

  • 高品質のラベル付きデータセットを作成するデータアノテーションおよびラベリングサービス

対象スキル:

  • AWS ツール (AWS Glue、DataBrew、Amazon EMR で稼働する Spark、SageMaker Data Wrangler など) を使用してデータを変換する。

  • AWS ツール (SageMaker Feature Store など) を使用して特徴量を作成および管理する。

  • AWS のサービス (SageMaker Ground Truth、Amazon Mechanical Turk など) を使用してデータを検証およびラベリングする。

タスク 1.3: データの完全性を確保し、モデリングに向けてデータを準備する。

対象知識:

  • 数値、テキスト、画像データのトレーニング前のバイアスメトリクス [クラス不均衡 (CI)、ラベル比率の差 (DPL) など]

  • 数値、テキスト、画像データセットの CI に対処するための戦略 (合成データの生成、リサンプリングなど)

  • データを暗号化する手法

  • データの分類、匿名化、マスキング

  • コンプライアンス要件の影響 [個人を特定できる情報 (PII)、保護対象医療情報 (PHI)、データレジデンシーなど]

対象スキル:

  • データ品質を検証する (DataBrew と AWS Glue Data Quality の使用など)。

  • AWS ツール (SageMaker Clarify など) を使用して、データのバイアスの原因 (選択バイアス、測定バイアスなど) を特定して対策を講じる。

  • 予測バイアスを軽減するためにデータを準備する (データセットの分割、シャッフル、拡張の使用などによる)。

  • モデルトレーニングリソース (Amazon EFS、Amazon FSx など) にロードするようにデータを設定する。