Amazon EKS によってオーケストレーションされた Amazon SageMaker HyperPod クラスターのオブザーバビリティ - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon EKS によってオーケストレーションされた Amazon SageMaker HyperPod クラスターのオブザーバビリティ

Amazon SageMaker HyperPod (SageMaker HyperPod) クラスターリソースとソフトウェアコンポーネントに包括的なオブザーバビリティを実現するには、クラスターを Amazon CloudWatch Container InsightsAmazon Managed Service for PrometheusAmazon Managed Grafana と統合します。これらのツールは、クラスターの状態、パフォーマンスメトリクス、リソース使用率を可視化します。

Amazon Managed Service for Prometheus との統合により、HyperPod クラスターリソースに関連するメトリクスのエクスポートが可能になり、パフォーマンス、使用率、ヘルスに関するインサイトが得られます。Amazon Managed Grafana との統合により、クラスターの動作をモニタリングおよび分析するための直感的なインターフェイスを提供するさまざまな Grafana ダッシュボードを通じて、これらのメトリクスを可視化できます。これらのサービスを活用することで、HyperPod クラスターを一元的に統一して表示できるため、分散トレーニングワークロードのプロアクティブなモニタリング、トラブルシューティング、最適化が容易になります。

注記

CloudWatch、Amazon Managed Service for Prometheus、Amazon Managed Grafana は運用メトリクス (システムの状態、トレーニングジョブのパフォーマンスなど) に焦点を当てていますが、SageMaker HyperPod 使用状況レポートはタスクガバナンスを補完し、財務とリソースの説明責任に関するインサイトを提供します。これらのレポートは以下を追跡します。

  • 名前空間/チーム間のコンピューティング使用率 (GPU/CPU/Neuron Core 時間)

  • 割り当てられたリソースと借用されたリソースのコスト属性

  • 監査と最適化の過去の傾向 (最大 180 日)

使用状況レポートの設定と生成の詳細については、「HyperPod でのコンピューティング使用状況の報告」を参照してください。

ヒント

実用的な例と解決策については、SageMaker HyperPod ワークショップの Amazon EKS サポートにある「Observability」セクションも参照してください。

次のトピックに進み、SageMaker HyperPod クラスターオブザーバビリティを設定します。