コンテンツ分野 4: ML ソリューションのモニタリング、保守、セキュリティ
タスク 4.1: モデル推論をモニタリングする。
対象知識:
ML モデルのドリフト
データ品質とモデルのパフォーマンスをモニタリングする手法
モニタリングに関連する ML レンズの設計原則
対象スキル:
本番環境でモデルをモニタリングする (Amazon SageMaker Model Monitor の使用などによる)。
ワークフローをモニタリングしてデータ処理やモデル推論における異常やエラーを検出する。
モデルのパフォーマンスに影響を及ぼす可能性のあるデータ分布の変化を検出する (SageMaker Clarify の使用などによる)。
A/B テストの使用により、本番環境でモデルのパフォーマンスをモニタリングする。
タスク 4.2: インフラストラクチャとコストをモニタリングおよび最適化する。
対象知識:
ML インフラストラクチャの主要なパフォーマンスメトリクス (使用率、スループット、可用性、スケーラビリティ、耐障害性など)
レイテンシーとパフォーマンスの問題をトラブルシューティングするためのモニタリングツールとオブザーバビリティツール (AWS X-Ray、Amazon CloudWatch Lambda Insights、Amazon CloudWatch Logs Insights など)
AWS CloudTrail を使用した再トレーニングアクティビティのログ記録、モニタリング、呼び出しの方法
インスタンスタイプ (メモリ最適化、コンピューティング最適化、汎用、推論最適化など) の違いとパフォーマンスへの影響
コスト分析ツール (AWS Cost Explorer、AWS Billing and Cost Management、AWS Trusted Advisor など) の機能
コスト追跡とコスト配分の手法 (リソースのタグ付けなど)
対象スキル:
リソースのトラブルシューティングと分析のためにツールを設定して使用する (CloudWatch Logs、CloudWatch アラームなど)。
CloudTrail 証跡を作成する。
パフォーマンスメトリクスをモニタリングするためにダッシュボードを設定する (Amazon QuickSight ダッシュボード、CloudWatch ダッシュボードの使用などによる)。
インフラストラクチャをモニタリングする (Amazon EventBridge イベントの使用などによる)。
インスタンスファミリーとサイズを適正化する (SageMaker AI Inference Recommender と AWS Compute Optimizer の使用などによる)。
レイテンシーとスケーリングの問題をモニタリングおよび解決する。
コストモニタリングのためにインフラストラクチャを準備する (タグ付け戦略の適用などによる)。
コストとパフォーマンスに関係する容量の懸念をトラブルシューティングする (プロビジョニング済み同時実行、サービスクォータ、自動スケーリングなど)。
適切なコスト管理ツール (AWS Cost Explorer、AWS Trusted Advisor、AWS Budgets など) を使用してコストを最適化し、コストクォータを設定する。
購入オプション (スポットインスタンス、オンデマンドインスタンス、リザーブドインスタンス、SageMaker AI Savings Plans など) を選択することにより、インフラストラクチャコストを最適化する。
タスク 4.3: AWS リソースのセキュリティを確保する。
対象知識:
AWS のサービス [AWS Identity and Access Management (IAM)、バケットポリシー、SageMaker Role Manager など] へのアクセスを制御する IAM ロール、ポリシー、グループ
SageMaker AI のセキュリティ機能とコンプライアンス機能
ML リソースへのネットワークアクセスの制御
CI/CD パイプラインのセキュリティのベストプラクティス
対象スキル:
ML アーティファクトへの最小権限アクセスを設定する。
ML システムとやり取りするユーザーとアプリケーションの IAM ポリシーとロールを設定する。
ML システムのモニタリング、監査、ログ記録により、継続的なセキュリティとコンプライアンスを確保する。
セキュリティの問題をトラブルシューティングおよびデバッグする。
ML システムをセキュアに分離するために VPC、サブネット、セキュリティグループを構築する。