Amazon SageMaker HyperPod オブザーバビリティダッシュボード - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon SageMaker HyperPod オブザーバビリティダッシュボード

このトピックでは、Amazon SageMaker HyperPod (SageMaker HyperPod) クラスターのメトリクスダッシュボードを表示する方法と、ダッシュボードに新しいユーザーを追加する方法について説明します。このトピックでは、さまざまなタイプのダッシュボードについても説明します。

ダッシュボードへのアクセス

Amazon Managed Grafana で SageMaker HyperPod クラスターのメトリクスを表示するには、次の手順を実行します。

  1. https://console.aws.amazon.com/sagemaker/ で Amazon SageMaker AI コンソールを開きます。

  2. クラスターの詳細ページに移動します。

  3. ダッシュボードタブで、HyperPod Observability セクションを見つけ、Grafana でダッシュボードを開くを選択します。

Amazon Managed Grafana ワークスペースへの新しいユーザーの追加

Amazon Managed Grafana ワークスペースにユーザーを追加する方法については、「Amazon Managed Grafana AWS ユーザーガイド」の「Amazon Managed Grafana ワークスペースで IAM アイデンティティセンターを使用する」を参照してください。

オブザーバビリティダッシュボード

SageMaker HyperPod オブザーバビリティアドオンは、デフォルトの Amazon Managed Grafana ワークスペースに相互接続されたダッシュボードを 5 つ提供します。各ダッシュボードは、データサイエンティスト、機械学習エンジニア、管理者など、さまざまなユーザー向けに、クラスター内のさまざまなリソースやタスクに関する詳細なインサイトを提供します。

タスクダッシュボード

タスクダッシュボードは、SageMaker HyperPod タスクのリソース使用率メトリクスを包括的にモニタリングおよび可視化します。メインパネルには、親タスク別にリソース使用率をグループ化した詳細なテーブルが表示され、ポッド全体の CPU、GPU、メモリ使用率が表示されます。インタラクティブな時系列グラフは、選択したポッドの CPU 使用率、システムメモリ消費量、GPU 使用率、GPU メモリ使用率を追跡するため、時間の経過とともにパフォーマンスの傾向をモニタリングできます。ダッシュボードには、クラスター名、名前空間、タスクタイプ、特定のポッドなどの変数による強力なフィルタリング機能が用意されているため、特定のワークロードに簡単にドリルダウンできます。このモニタリングソリューションは、SageMaker HyperPod でのリソース割り当ての最適化と機械学習ワークロードのパフォーマンスの維持に不可欠です。

トレーニングダッシュボード

トレーニングダッシュボードは、トレーニングタスクのヘルス、信頼性、障害管理メトリクスを包括的にモニタリングします。ダッシュボードには、タスク作成数、成功率、稼働時間の割合などの主要なパフォーマンス指標と、自動再起動イベントと手動再起動イベントの両方の詳細な追跡が含まれています。タイプ別および修復レイテンシー別にインシデントを分類する円グラフとヒートマップを通じて障害パターンを詳細に視覚化できるため、繰り返し発生する問題を特定し、タスクの信頼性を最適化できます。インターフェイスには、システム復旧時間や障害検出レイテンシーなどの重要なメトリクスのリアルタイムモニタリングが含まれているため、トレーニングワークロードの高可用性を維持するために不可欠なツールです。さらに、ダッシュボードの 24 時間のトレーリングウィンドウは、トレーニングタスクのパフォーマンスの傾向とパターンを分析するための履歴コンテキストを提供し、潜在的な問題が本番環境のワークロードに影響を与える前にチームが積極的に対処できるようにします。

推論ダッシュボード

推論ダッシュボードは、複数のディメンションにわたるモデルデプロイのパフォーマンスとヘルスメトリクスを包括的にモニタリングします。アクティブなデプロイ、リクエスト率のリアルタイムモニタリング、成功率、レイテンシーメトリクスの詳細な概要を示し、モデル提供のパフォーマンスを追跡し、潜在的なボトルネックを特定できます。ダッシュボードには、最初のトークンまでの時間 (TTFT) やトークンスループットなど、一般的な推論メトリクスと言語モデルのトークン固有のメトリクスの両方に特化したパネルが含まれており、大規模言語モデルのデプロイのモニタリングに特に役立ちます。さらに、ポッドとノードの割り当ての追跡を通じてインフラストラクチャに関するインサイトを提供し、推論ワークロードの高可用性とパフォーマンスを維持するのに役立つ詳細なエラー分析機能を提供します。

クラスターダッシュボード

クラスターダッシュボードは、クラスターのヘルスとパフォーマンスの包括的なビューを提供し、Amazon SageMaker HyperPod (SageMaker HyperPod) 環境全体のコンピューティング、メモリ、ネットワーク、ストレージリソースをリアルタイムで可視化します。数秒ごとにデータを自動的に更新する直感的なインターフェイスを使用して、合計インスタンス数、GPU 使用率、メモリ使用量、ネットワークパフォーマンスなどの重要なメトリクスを一目で確認できます。ダッシュボードは、正常なインスタンスの割合や合計リソース数などの主要なメトリクスを表示する高レベルのクラスターの概要から始まり、GPU パフォーマンス、メモリ使用率、ネットワーク統計、ストレージメトリクスの詳細なセクションまで、論理的なセクションにまとめられています。各セクションには、クラスター名、インスタンス、または GPU ID でカスタマイズ可能な時間範囲とフィルタリングオプションを使用して、特定のメトリクスにドリルダウンできるインタラクティブなグラフとパネルがあります。

ファイルシステムダッシュボード

ファイルシステムダッシュボードは、ファイルシステム (Amazon FSx for Lustre) のパフォーマンスとヘルスメトリクスを包括的に可視化します。ダッシュボードには、空き容量、重複排除の削減、CPU/メモリ使用率、ディスク IOPS、スループット、複数の視覚化にわたるクライアント接続などの重要なストレージメトリクスが表示されます。これにより、CPU やメモリの使用状況などのシステムレベルのパフォーマンス指標と、読み取り/書き込みオペレーションやディスク使用率パターンなどのストレージ固有のメトリクスの両方をモニタリングできます。このインターフェイスには、アラートモニタリング機能と詳細な時系列グラフが含まれており、パフォーマンスの経時的な傾向を追跡できるため、プロアクティブなメンテナンスやキャパシティプランニングに役立ちます。さらに、包括的なメトリクスカバレッジを通じて、ダッシュボードは潜在的なボトルネックを特定し、ストレージのパフォーマンスを最適化し、SageMaker HyperPod ワークロードの信頼性の高いファイルシステムオペレーションを確保するのに役立ちます。