# コンテンツ分野 1: 機械学習 (ML) のためのデータ準備
<a name="machine-learning-engineer-associate-01-domain1"></a>

**Topics**
+ [タスク 1.1: データを取り込んで保存する。](#machine-learning-engineer-associate-01-domain1-task1)
+ [タスク 1.2: データを変換し、特徴量エンジニアリングを実行する。](#machine-learning-engineer-associate-01-domain1-task2)
+ [タスク 1.3: データの完全性を確保し、モデリングに向けてデータを準備する。](#machine-learning-engineer-associate-01-domain1-task3)

## タスク 1.1: データを取り込んで保存する。
<a name="machine-learning-engineer-associate-01-domain1-task1"></a>

対象知識:
+ データフォーマットと取り込みメカニズム (検証済みフォーマットと未検証フォーマット、Apache Parquet、JSON、CSV、Apache ORC、Apache Avro、RecordIO など)
+ AWS の主要なデータソース [Amazon S3、Amazon Elastic File System (Amazon EFS)、Amazon FSx for NetApp ONTAP など] の使用方法
+ AWS のストリーミングデータソース (Amazon Kinesis、Apache Flink、Apache Kafka など) を使用してデータを取り込む方法
+ AWS のストレージオプション (ユースケースとトレードオフなど)

対象スキル:
+ 関連する AWS のサービスオプション (Amazon S3 Transfer Acceleration、Amazon EBS プロビジョンド IOPS など) を使用してストレージ [Amazon S3、Amazon Elastic Block Store (Amazon EBS)、Amazon EFS、Amazon RDS、Amazon DynamoDB など] からデータを抽出する。
+ データアクセスパターンに基づいて適切なデータ形式 (Parquet、JSON、CSV、ORC など) を選択する。
+ Amazon SageMaker Data Wrangler および SageMaker Feature Store にデータを取り込む。
+ 複数のソースからデータをマージする (プログラミング手法、AWS Glue、Apache Spark の使用などによる)。
+ 容量とスケーラビリティに関係するデータ取り込みとストレージの問題をトラブルシューティングおよびデバッグする。
+ コスト、パフォーマンス、データ構造に基づいてストレージに関する初期考慮事項を決定する。

## タスク 1.2: データを変換し、特徴量エンジニアリングを実行する。
<a name="machine-learning-engineer-associate-01-domain1-task2"></a>

対象知識:
+ データクリーニングおよびデータ変換の手法 (外れ値の検出と処理、欠損データの補完、結合、重複排除など)
+ 特徴量エンジニアリング手法 (データのスケーリングと標準化、特徴量分割、ビニング、ログ変換、正規化など)
+ エンコーディング手法 (ワンホットエンコーディング、バイナリエンコーディング、ラベルエンコーディング、トークン化など)
+ データと特徴量を調査、可視化、変換するためのツール (SageMaker Data Wrangler、AWS Glue、AWS Glue DataBrew など)
+ ストリーミングデータを変換するサービス (AWS Lambda、Spark など)
+ 高品質のラベル付きデータセットを作成するデータアノテーションおよびラベリングサービス

対象スキル:
+ AWS ツール (AWS Glue、DataBrew、Amazon EMR で稼働する Spark、SageMaker Data Wrangler など) を使用してデータを変換する。
+ AWS ツール (SageMaker Feature Store など) を使用して特徴量を作成および管理する。
+ AWS のサービス (SageMaker Ground Truth、Amazon Mechanical Turk など) を使用してデータを検証およびラベリングする。

## タスク 1.3: データの完全性を確保し、モデリングに向けてデータを準備する。
<a name="machine-learning-engineer-associate-01-domain1-task3"></a>

対象知識:
+ 数値、テキスト、画像データのトレーニング前のバイアスメトリクス [クラス不均衡 (CI)、ラベル比率の差 (DPL) など]
+ 数値、テキスト、画像データセットの CI に対処するための戦略 (合成データの生成、リサンプリングなど)
+ データを暗号化する手法
+ データの分類、匿名化、マスキング
+ コンプライアンス要件の影響 [個人を特定できる情報 (PII)、保護対象医療情報 (PHI)、データレジデンシーなど]

対象スキル:
+ データ品質を検証する (DataBrew と AWS Glue Data Quality の使用など)。
+ AWS ツール (SageMaker Clarify など) を使用して、データのバイアスの原因 (選択バイアス、測定バイアスなど) を特定して対策を講じる。
+ 予測バイアスを軽減するためにデータを準備する (データセットの分割、シャッフル、拡張の使用などによる)。
+ モデルトレーニングリソース (Amazon EFS、Amazon FSx など) にロードするようにデータを設定する。