# コンテンツ分野 4: ML ソリューションのモニタリング、保守、セキュリティ
<a name="machine-learning-engineer-associate-01-domain4"></a>

**Topics**
+ [タスク 4.1: モデル推論をモニタリングする。](#machine-learning-engineer-associate-01-domain4-task1)
+ [タスク 4.2: インフラストラクチャとコストをモニタリングおよび最適化する。](#machine-learning-engineer-associate-01-domain4-task2)
+ [タスク 4.3: AWS リソースのセキュリティを確保する。](#machine-learning-engineer-associate-01-domain4-task3)

## タスク 4.1: モデル推論をモニタリングする。
<a name="machine-learning-engineer-associate-01-domain4-task1"></a>

対象知識:
+ ML モデルのドリフト
+ データ品質とモデルのパフォーマンスをモニタリングする手法
+ モニタリングに関連する ML レンズの設計原則

対象スキル:
+ 本番環境でモデルをモニタリングする (Amazon SageMaker Model Monitor の使用などによる)。
+ ワークフローをモニタリングしてデータ処理やモデル推論における異常やエラーを検出する。
+ モデルのパフォーマンスに影響を及ぼす可能性のあるデータ分布の変化を検出する (SageMaker Clarify の使用などによる)。
+ A/B テストの使用により、本番環境でモデルのパフォーマンスをモニタリングする。

## タスク 4.2: インフラストラクチャとコストをモニタリングおよび最適化する。
<a name="machine-learning-engineer-associate-01-domain4-task2"></a>

対象知識:
+ ML インフラストラクチャの主要なパフォーマンスメトリクス (使用率、スループット、可用性、スケーラビリティ、耐障害性など)
+ レイテンシーとパフォーマンスの問題をトラブルシューティングするためのモニタリングツールとオブザーバビリティツール (AWS X-Ray、Amazon CloudWatch Lambda Insights、Amazon CloudWatch Logs Insights など)
+ AWS CloudTrail を使用した再トレーニングアクティビティのログ記録、モニタリング、呼び出しの方法
+ インスタンスタイプ (メモリ最適化、コンピューティング最適化、汎用、推論最適化など) の違いとパフォーマンスへの影響
+ コスト分析ツール (AWS Cost Explorer、AWS Billing and Cost Management、AWS Trusted Advisor など) の機能
+ コスト追跡とコスト配分の手法 (リソースのタグ付けなど)

対象スキル:
+ リソースのトラブルシューティングと分析のためにツールを設定して使用する (CloudWatch Logs、CloudWatch アラームなど)。
+ CloudTrail 証跡を作成する。
+ パフォーマンスメトリクスをモニタリングするためにダッシュボードを設定する (Amazon QuickSight ダッシュボード、CloudWatch ダッシュボードの使用などによる)。
+ インフラストラクチャをモニタリングする (Amazon EventBridge イベントの使用などによる)。
+ インスタンスファミリーとサイズを適正化する (SageMaker AI Inference Recommender と AWS Compute Optimizer の使用などによる)。
+ レイテンシーとスケーリングの問題をモニタリングおよび解決する。
+ コストモニタリングのためにインフラストラクチャを準備する (タグ付け戦略の適用などによる)。
+ コストとパフォーマンスに関係する容量の懸念をトラブルシューティングする (プロビジョニング済み同時実行、サービスクォータ、自動スケーリングなど)。
+ 適切なコスト管理ツール (AWS Cost Explorer、AWS Trusted Advisor、AWS Budgets など) を使用してコストを最適化し、コストクォータを設定する。
+ 購入オプション (スポットインスタンス、オンデマンドインスタンス、リザーブドインスタンス、SageMaker AI Savings Plans など) を選択することにより、インフラストラクチャコストを最適化する。

## タスク 4.3: AWS リソースのセキュリティを確保する。
<a name="machine-learning-engineer-associate-01-domain4-task3"></a>

対象知識:
+ AWS のサービス [AWS Identity and Access Management (IAM)、バケットポリシー、SageMaker Role Manager など] へのアクセスを制御する IAM ロール、ポリシー、グループ
+ SageMaker AI のセキュリティ機能とコンプライアンス機能
+ ML リソースへのネットワークアクセスの制御
+ CI/CD パイプラインのセキュリティのベストプラクティス

対象スキル:
+ ML アーティファクトへの最小権限アクセスを設定する。
+ ML システムとやり取りするユーザーとアプリケーションの IAM ポリシーとロールを設定する。
+ ML システムのモニタリング、監査、ログ記録により、継続的なセキュリティとコンプライアンスを確保する。
+ セキュリティの問題をトラブルシューティングおよびデバッグする。
+ ML システムをセキュアに分離するために VPC、サブネット、セキュリティグループを構築する。