コンテンツ分野 4: ML ソリューションのモニタリング、保守、セキュリティ - AWS Certified Machine Learning Engineer

コンテンツ分野 4: ML ソリューションのモニタリング、保守、セキュリティ

タスク 4.1: モデル推論をモニタリングする。

対象知識:

  • ML モデルのドリフト

  • データ品質とモデルのパフォーマンスをモニタリングする手法

  • モニタリングに関連する ML レンズの設計原則

対象スキル:

  • 本番環境でモデルをモニタリングする (Amazon SageMaker Model Monitor の使用などによる)。

  • ワークフローをモニタリングしてデータ処理やモデル推論における異常やエラーを検出する。

  • モデルのパフォーマンスに影響を及ぼす可能性のあるデータ分布の変化を検出する (SageMaker Clarify の使用などによる)。

  • A/B テストの使用により、本番環境でモデルのパフォーマンスをモニタリングする。

タスク 4.2: インフラストラクチャとコストをモニタリングおよび最適化する。

対象知識:

  • ML インフラストラクチャの主要なパフォーマンスメトリクス (使用率、スループット、可用性、スケーラビリティ、耐障害性など)

  • レイテンシーとパフォーマンスの問題をトラブルシューティングするためのモニタリングツールとオブザーバビリティツール (AWS X-Ray、Amazon CloudWatch Lambda Insights、Amazon CloudWatch Logs Insights など)

  • AWS CloudTrail を使用した再トレーニングアクティビティのログ記録、モニタリング、呼び出しの方法

  • インスタンスタイプ (メモリ最適化、コンピューティング最適化、汎用、推論最適化など) の違いとパフォーマンスへの影響

  • コスト分析ツール (AWS Cost Explorer、AWS Billing and Cost Management、AWS Trusted Advisor など) の機能

  • コスト追跡とコスト配分の手法 (リソースのタグ付けなど)

対象スキル:

  • リソースのトラブルシューティングと分析のためにツールを設定して使用する (CloudWatch Logs、CloudWatch アラームなど)。

  • CloudTrail 証跡を作成する。

  • パフォーマンスメトリクスをモニタリングするためにダッシュボードを設定する (Amazon QuickSight ダッシュボード、CloudWatch ダッシュボードの使用などによる)。

  • インフラストラクチャをモニタリングする (Amazon EventBridge イベントの使用などによる)。

  • インスタンスファミリーとサイズを適正化する (SageMaker AI Inference Recommender と AWS Compute Optimizer の使用などによる)。

  • レイテンシーとスケーリングの問題をモニタリングおよび解決する。

  • コストモニタリングのためにインフラストラクチャを準備する (タグ付け戦略の適用などによる)。

  • コストとパフォーマンスに関係する容量の懸念をトラブルシューティングする (プロビジョニング済み同時実行、サービスクォータ、自動スケーリングなど)。

  • 適切なコスト管理ツール (AWS Cost Explorer、AWS Trusted Advisor、AWS Budgets など) を使用してコストを最適化し、コストクォータを設定する。

  • 購入オプション (スポットインスタンス、オンデマンドインスタンス、リザーブドインスタンス、SageMaker AI Savings Plans など) を選択することにより、インフラストラクチャコストを最適化する。

タスク 4.3: AWS リソースのセキュリティを確保する。

対象知識:

  • AWS のサービス [AWS Identity and Access Management (IAM)、バケットポリシー、SageMaker Role Manager など] へのアクセスを制御する IAM ロール、ポリシー、グループ

  • SageMaker AI のセキュリティ機能とコンプライアンス機能

  • ML リソースへのネットワークアクセスの制御

  • CI/CD パイプラインのセキュリティのベストプラクティス

対象スキル:

  • ML アーティファクトへの最小権限アクセスを設定する。

  • ML システムとやり取りするユーザーとアプリケーションの IAM ポリシーとロールを設定する。

  • ML システムのモニタリング、監査、ログ記録により、継続的なセキュリティとコンプライアンスを確保する。

  • セキュリティの問題をトラブルシューティングおよびデバッグする。

  • ML システムをセキュアに分離するために VPC、サブネット、セキュリティグループを構築する。