Amazon SageMaker HyperPod オブザーバビリティダッシュボード - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon SageMaker HyperPod オブザーバビリティダッシュボード

このトピックでは、Amazon SageMaker HyperPod (SageMaker HyperPod) クラスターのメトリクスダッシュボードの表示方法と、ダッシュボードに新しいユーザーを追加する方法について説明します。ダッシュボードのさまざまなタイプについても説明します。

ダッシュボードへのアクセス

Amazon Managed Grafana で SageMaker HyperPod クラスターのメトリクスを表示するには、次の手順を実行します。

  1. Amazon SageMaker AI コンソール (https://console.aws.amazon.com/sagemaker/) を開きます。

  2. クラスターの詳細ページに移動します。

  3. [ダッシュボード] タブで、[HyperPod オブザーバビリティ] セクションを探して、[Grafana でダッシュボードを開く] をクリックします。

Amazon Managed Grafana ワークスペースへの新しいユーザーの追加

Amazon Managed Grafana ワークスペースにユーザーを追加する方法については、「Amazon Managed Grafana ユーザーガイド」の「Amazon Managed Grafana ワークスペースで AWS IAM アイデンティティセンターを使用する」を参照してください。

オブザーバビリティダッシュボード

SageMaker HyperPod オブザーバビリティアドオンは、デフォルトの Amazon Managed Grafana ワークスペースに相互接続されたダッシュボードを 5 つ提供します。各ダッシュボードは、データサイエンティスト、機械学習エンジニア、管理者など、さまざまなユーザー向けに、クラスター内のさまざまなリソースやタスクに関する詳細なインサイトを提供します。

タスクダッシュボード

タスクダッシュボードは、SageMaker HyperPod タスクのリソース使用率メトリクスを包括的にモニタリングおよび可視化します。メインパネルには、親タスクごとにリソース使用率をグループ化した詳細なテーブルが表示され、ポッド全体にわたる CPU、GPU、メモリ使用率が表示されます。インタラクティブ時系列グラフは、選択したポッドの CPU 使用率、システムメモリ消費量、GPU 使用率、GPU メモリ使用率を追跡するため、経時的なパフォーマンスの傾向をモニタリングできます。ダッシュボードは、クラスター名、名前空間、タスクタイプ、特定のポッドなどの変数による強力なフィルタリング機能を提供しているため、特定のワークロードに簡単にドリルダウンできます。このモニタリングソリューションは、リソースの割り当てを最適化し、SageMaker HyperPod で機械学習ワークロードのパフォーマンスを維持するために不可欠です。

トレーニングダッシュボード

トレーニングダッシュボードは、トレーニングタスクの状態、信頼性、障害管理メトリクスを包括的にモニタリングします。ダッシュボードは、タスク作成数、成功率、稼働時間の割合などの主要なパフォーマンス指標と、自動再起動イベントと手動再起動イベントの両方の詳細な追跡機能を提供します。タイプ別および修復レイテンシー別にインシデントを分類する円グラフとヒートマップを通じて障害パターンを詳細に可視化できるため、繰り返し発生する問題を特定し、タスクの信頼性を最適化できます。インターフェイスには、システム復旧時間や障害検出レイテンシーなどの重要なメトリクスのリアルタイムモニタリングが含まれているため、トレーニングワークロードの高可用性を維持するために不可欠なツールです。さらに、ダッシュボードの 24 時間追跡ウィンドウは、トレーニングタスクのパフォーマンスの傾向とパターンを分析するための履歴コンテキストを提供し、潜在的な問題が本番環境のワークロードに影響を与える前にチームはプロアクティブに対処できるようになります。

推論ダッシュボード

推論ダッシュボードは、複数のディメンションにわたるモデルデプロイのパフォーマンスとヘルスメトリクスを包括的にモニタリングします。アクティブなデプロイの詳細な概要、リクエスト率、成功率、レイテンシーメトリクスのリアルタイムモニタリングにより、モデル提供のパフォーマンスを追跡し、潜在的なボトルネックを特定できます。ダッシュボードには、最初のトークンまでの時間 (TTFT) やトークンスループットなど、一般的な推論メトリクスと言語モデルのトークン固有のメトリクスの両方に特化したパネルが含まれており、大規模言語モデルのデプロイのモニタリングに特に役立ちます。さらに、ポッドとノードの割り当ての追跡を通じてインフラストラクチャに関するインサイトを提供し、推論ワークロードの高可用性とパフォーマンスを維持するのに役立つ詳細なエラー分析機能を提供します。

クラスターダッシュボード

クラスターダッシュボードは、クラスターのヘルスとパフォーマンスの包括的なビューを提供し、Amazon SageMaker HyperPod (SageMaker HyperPod) 環境全体にわたるコンピューティング、メモリ、ネットワーク、ストレージリソースをリアルタイムで可視化します。数秒ごとにデータを自動的に更新する直感的なインターフェイスを使用して、合計インスタンス数、GPU 使用率、メモリ使用量、ネットワークパフォーマンスなどの重要なメトリクスを一目で確認できます。ダッシュボードは、正常なインスタンスの割合や合計リソース数などの主要なメトリクスを表示する高レベルのクラスターの概要から、GPU パフォーマンス、メモリ使用率、ネットワーク統計、ストレージメトリクスの詳細セクションまで、論理的なセクションにまとめられています。各セクションには、クラスター名、インスタンス、または GPU ID でカスタマイズ可能な時間範囲とフィルタリングオプションを使用して、特定のメトリクスにドリルダウンできるインタラクティブなグラフとパネルが提供されています。

ファイルシステムダッシュボード

ファイルシステムダッシュボードは、ファイルシステム (Amazon FSx for Lustre) のパフォーマンスとヘルスメトリクスを包括的に可視化します。ダッシュボードには、空きキャパシティ、重複排除による節約、CPU/メモリ使用率、ディスク IOPS、スループット、複数の視覚化にわたるクライアント接続などの重要なストレージメトリクスが表示されます。これにより、CPU やメモリの使用状況などのシステムレベルのパフォーマンス指標と、読み取り/書き込みオペレーションやディスク使用率パターンなどのストレージ固有のメトリクスの両方をモニタリングできます。このインターフェイスには、アラートモニタリング機能と詳細な時系列グラフが含まれており、パフォーマンスの経時的な傾向を追跡できるため、プロアクティブなメンテナンスやキャパシティプランニングに役立ちます。さらに、包括的なメトリクスカバレッジを通じて、ダッシュボードは潜在的なボトルネックを特定し、ストレージのパフォーマンスを最適化して、SageMaker HyperPod ワークロードの信頼性の高いファイルシステムオペレーションを確保するのに役立ちます。

GPU パーティションダッシュボード

マルチインスタンス GPU (MIG) 設定を使用するときに GPU パーティション固有のメトリクスをモニタリングするには、SageMaker HyperPod Observability アドオンの最新バージョンをインストールまたはアップグレードする必要があります。このアドオンは、パーティション数、メモリ使用量、GPU パーティションあたりのコンピューティング使用率などの MIG 固有のメトリクスを含む包括的なモニタリング機能を提供します。

SageMaker HyperPod Observability が既にインストールされているが、MIG メトリクスのサポートが必要な場合は、アドオンを最新バージョンに更新してください。このプロセスは中断されず、既存のモニタリング設定を維持します。

SageMaker HyperPod は、以下を含む MIG 固有のメトリクスを自動的に公開します。

  • nvidia_mig_instance_count: プロファイルあたりの MIG インスタンスの数

  • nvidia_mig_memory_usage: MIG インスタンスあたりのメモリ使用率

  • nvidia_mig_compute_utilization: MIG インスタンスあたりのコンピューティング使用率