

# コンテンツ分野 2: ML モデルの開発
<a name="machine-learning-engineer-associate-01-domain2"></a>

**Topics**
+ [タスク 2.1: モデリングアプローチを選択する。](#machine-learning-engineer-associate-01-domain2-task1)
+ [タスク 2.2: モデルをトレーニングおよび改良する。](#machine-learning-engineer-associate-01-domain2-task2)
+ [タスク 2.3: モデルのパフォーマンスを分析する。](#machine-learning-engineer-associate-01-domain2-task3)

## タスク 2.1: モデリングアプローチを選択する。
<a name="machine-learning-engineer-associate-01-domain2-task1"></a>

対象知識:
+ ビジネス上の問題を解決するための ML アルゴリズムの機能と適切な使用
+ AWS の人工知能 (AI) サービス (Amazon Translate、Amazon Transcribe、Amazon Rekognition、Amazon Bedrock など) を使用してビジネス上の特定の問題を解決する方法
+ モデル選択またはアルゴリズム選択時の解釈可能性を考慮する方法
+ Amazon SageMaker AI の組み込みアルゴリズムと適用のタイミング

対象スキル:
+ 使用可能なデータと問題の複雑さを評価して ML ソリューションの実現可能性を判断する。
+ 特定の問題を解決するための適切な ML モデルやアルゴリズムを比較して選択する。
+ 組み込みアルゴリズム、基盤モデル、ソリューションテンプレート (SageMaker JumpStart、Amazon Bedrock など) を選択する。
+ コストに基づいてモデルやアルゴリズムを選択する。
+ 一般的なビジネスニーズを解決する AI サービスを選択する。

## タスク 2.2: モデルをトレーニングおよび改良する。
<a name="machine-learning-engineer-associate-01-domain2-task2"></a>

対象知識:
+ トレーニングプロセスの要素 (エポック、ステップ、バッチサイズなど)
+ モデルトレーニング時間を短縮する方法 (早期停止、分散トレーニングなど)
+ モデルサイズに影響する要因
+ モデルのパフォーマンスを向上させる方法
+ 正則化手法の利点 (ドロップアウト、重み減衰、L1/L2 など)
+ ハイパーパラメータのチューニング手法 (ランダム検索、ベイズ最適化など)
+ モデルのハイパーパラメータとそれらがモデルパフォーマンスに及ぼす影響 (ツリーベースのモデルのツリー数、ニューラルネットワークのレイヤー数など)
+ SageMaker AI の外部で構築されたモデルを SageMaker AI に取り入れる方法

対象スキル:
+ SageMaker AI の組み込みアルゴリズムと一般的な ML ライブラリを使用して ML モデルを開発する。
+ SageMaker AI がサポートするフレームワーク (TensorFlow、PyTorch など) で SageMaker AI スクリプトモードを使用してモデルをトレーニングする。
+ カスタムデータセットを使用して、事前トレーニングされたモデル (Amazon Bedrock、SageMaker JumpStart など) をファインチューニングする。
+ ハイパーパラメータチューニングを実行する [SageMaker AI 自動モデルチューニング (AMT) の使用などによる]。
+ 自動ハイパーパラメータ最適化機能を導入する。
+ モデルのオーバーフィット、アンダーフィット、壊滅的忘却を防止する (正則化手法の使用、特徴量選択などによる)。
+ 複数のトレーニングモデルを組み合わせてパフォーマンスを向上させる (アンサンブル、スタッキング、ブースティングなど)。
+ モデルサイズを縮小する (データ型の変更、プルーニング、特徴量選択の更新、圧縮などによる)。
+ 再現性と監査のためにモデルバージョンを管理する (SageMaker Model Registry の使用などによる)。

## タスク 2.3: モデルのパフォーマンスを分析する。
<a name="machine-learning-engineer-associate-01-domain2-task3"></a>

対象知識:
+ モデル評価手法とメトリクス [混同行列、ヒートマップ、F1 スコア、正解率、適合率、再現率、二乗平均平方根誤差 (RMSE)、受信者動作特性 (ROC)、ROC 曲線下面積 (AUC) など]
+ パフォーマンスベースラインを作成する方法
+ モデルのオーバーフィットとアンダーフィットを特定する方法
+ ML のトレーニングデータとモデルに関するインサイトを得るために SageMaker Clarify で使用可能なメトリクス
+ 収束の問題

対象スキル:
+ 評価メトリクスを選択および解釈し、モデルのバイアスを検出する。
+ モデルのパフォーマンス、トレーニング時間、コスト間のトレードオフを評価する。
+ AWS のサービスを使用して再現可能な実験を行う。
+ シャドウバリアントのパフォーマンスと本番稼働用バリアントのパフォーマンスを比較する。
+ SageMaker Clarify を使用してモデルの出力を解釈する。
+ SageMaker モデルデバッガーを使用してモデル収束をデバッグする。