クラスターとタスクのオブザーバビリティ - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

クラスターとタスクのオブザーバビリティ

SageMaker HyperPod クラスターをモニタリングするには、次の 2 つのオプションがあります。

SageMaker HyperPod オブザーバビリティアドオン — SageMaker HyperPod は、out-of-the-boxダッシュボードを提供します。この統合オブザーバビリティソリューションは、主要なメトリクスを Amazon Managed Service for Prometheus に自動的に発行し、Amazon Managed Grafana ダッシュボードに表示します。ダッシュボードは、ハードウェアの状態、リソース使用率、タスクレベルのパフォーマンスを詳細にカバーした FM 開発専用に最適化されています。このアドオンを使用すると、NVIDIA DCGM、インスタンスレベルの Kubernetes ノードエクスポーター、Elastic Fabric Adapter、統合ファイルシステム、Kubernetes APIs、Kueue、SageMaker HyperPod タスクオペレーターのヘルスデータとパフォーマンスデータを統合できます。

Amazon CloudWatch Insights — Amazon CloudWatch Insights は、CPU、メモリ、ディスク、ネットワークなどのコンピューティングリソースのメトリクスを収集します。Container Insights では、問題の迅速な特定と解決に役立つ、コンテナの再起動失敗などの診断情報も提供されます。また、Container Insights が収集するメトリクスには CloudWatch アラームを設定できます。