オブザーバビリティ - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

オブザーバビリティ

標準 Kubernetes モニタリング

describe kubectlkubectl logs などの標準 Kubernetes ツールを使用して、スペースをモニタリングできます。

スペースステータスのモニタリング

# List all Spaces with status kubectl get workspace -A # Get detailed information about a specific Space kubectl describe workspace <workspace-name>

スペースログの表示

# View workspace container logs kubectl logs -l workspace.jupyter.org/workspace-name=<workspace-name> -c workspace # View SSM agent sidecar logs (for remote IDE connectivity) kubectl logs -l workspace.jupyter.org/workspace-name=<workspace-name> -c ssm-agent-sidecar # Follow logs in real-time kubectl logs -l workspace.jupyter.org/workspace-name=<workspace-name> -c workspace -f

スペース条件について

スペースは、ステータスが 4 つの条件タイプを報告します。

  • 使用可能: スペースが使用可能Trueになったとき。必要なすべてのリソース (ポッド、サービス、ストレージ) が実行されており、正常である。

  • 進行中: スペースTrueが作成、更新、または調整されている場合。安定したFalseら に移行します。

  • Degraded: スペースリソースでエラーが検出されTrueた場合。詳細については、条件メッセージを確認してください。

  • Stopped: True Space desired ステータスが に設定されている場合Stopped。ポッドは終了しますが、ストレージと設定は保持されます。

CloudWatch Logs の統合

CloudWatch ログアドオンをインストールして、スペースログを Amazon CloudWatch Logs に送信し、ログの管理と保持を一元化できます。これにより、複数のクラスター間でログを集約し、CloudWatch Insights と統合してクエリと分析を行うことができます。上記の使用可能なkubectlログはすべて、このプラグインを使用して CloudWatch でクエリできます。

リファレンス: https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-eks-cluster-observability-cluster-cloudwatch-ci.html

HyperPod Observability アドオン

SageMaker HyperPod オブザーバビリティアドオンは、スペースリソースの使用率をモニタリングするための包括的なダッシュボードを提供します。アドオンをインストールしたら、Amazon Managed Grafana ダッシュボードにメトリクスを表示する HyperPod コンソールのタスクタブでスペースメモリと CPU 使用率を表示できます。

リファレンス: https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-observability-addon.html

利用可能な主要なメトリクス:

  • スペースあたりの CPU とメモリの使用率

  • GPU メトリクス (該当する場合)