Amazon Managed Grafana と Amazon Managed Service for Prometheus を使用した Amazon SageMaker HyperPod のオブザーバビリティ - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon Managed Grafana と Amazon Managed Service for Prometheus を使用した Amazon SageMaker HyperPod のオブザーバビリティ

Amazon SageMaker HyperPod (SageMaker HyperPod) は、基盤モデル (FM) 開発タスクとクラスターリソースに関するインサイトを提供する、包括的ですぐに使用できるダッシュボードを提供します。この統合オブザーバビリティソリューションは、主要なメトリクスを Amazon Managed Service for Prometheus に自動的に公開し、Amazon Managed Grafana ダッシュボードに表示します。ダッシュボードは FM 開発向けに最適化されており、ハードウェアのヘルス、リソース使用率、タスクレベルのパフォーマンスを詳細に提供します。このアドオンを使用すると、NVIDIA DCGM、インスタンスレベルの Kubernetes ノードエクスポーター、Elastic Fabric Adapter、統合ファイルシステム、Kubernetes API、Kueue、SageMaker HyperPod タスクオペレーターのヘルスデータとパフォーマンスデータを統合できます。