Amazon SageMaker HyperPod オブザーバビリティアドオンのトラブルシューティング - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon SageMaker HyperPod オブザーバビリティアドオンのトラブルシューティング

Amazon SageMaker HyperPod (SageMaker HyperPod) オブザーバビリティアドオンの一般的な問題を解決するには、次のガイダンスを使用します。

Amazon Managed Grafana で提供されないメトリクスのトラブルシューティング

Amazon Managed Grafana ダッシュボードにメトリクスが表示されない場合は、次の手順を実行して問題を特定し、解決します。

Amazon Managed Service for Prometheus-Amazon Managed Grafana の接続を検証する

  1. Amazon Managed Grafana コンソールにサインインします。

  2. 左側のペインで、[すべてのワークスペース] を選択します。

  3. [WorkSpaces] テーブルで、ワークスペースを選択します。

  4. ワークスペースの詳細ページで、[データソース] タブを選択します。

  5. Amazon Managed Service for Prometheus データソースが存在することを確認します。

  6. 接続設定を確認します。

    • エンドポイント URLが正しいことを確認します。

    • IAM 認証が適切に設定されていることを検証します。

    • [Test connection] を選択します。ステータスが [データソースは機能しています] であることを検証します。

Amazon EKS アドオンのステータスを検証する

  1. https://console.aws.amazon.com/eks/home#/clusters で Amazon EKS コンソールを開きます。

  2. クラスターを選択します。

  3. [アドオン] タブを選択してください。

  4. SageMaker HyperPod オブザーバビリティアドオンが表示され、そのステータスが [アクティブ] であることを検証します。

  5. ステータスが [アクティブ] でない場合は、「」を参照してくださいアドオンのインストール失敗のトラブルシューティング

Pod Identity の関連付けを検証する

  1. https://console.aws.amazon.com/eks/home#/clusters で Amazon EKS コンソールを開きます。

  2. クラスターを選択します。

  3. クラスターの詳細ページで、[アクセス] タブをクリックします。

  4. [Pod Identity の関連付け] テーブルで、次のプロパティ値を持つ関連付けを選択します。

    • 名前空間: hyperpod-observability

    • サービスアカウント: hyperpod-observability-operator-otel-collector

    • アドオン: amazon-sagemaker-hyperpod-observability

  5. この関連付けにアタッチされている IAM ロールに次のアクセス許可があることを確認します。

    JSON
    { "Version":"2012-10-17", "Statement": [ { "Sid": "PrometheusAccess", "Effect": "Allow", "Action": "aps:RemoteWrite", "Resource": "arn:aws:aps:us-east-1:111122223333:workspace/workspace-ID" }, { "Sid": "CloudwatchLogsAccess", "Effect": "Allow", "Action": [ "logs:CreateLogGroup", "logs:CreateLogStream", "logs:DescribeLogGroups", "logs:DescribeLogStreams", "logs:PutLogEvents", "logs:GetLogEvents", "logs:FilterLogEvents", "logs:GetLogRecord", "logs:StartQuery", "logs:StopQuery", "logs:GetQueryResults" ], "Resource": [ "arn:aws:logs:us-east-1:111122223333:log-group:/aws/sagemaker/Clusters/*", "arn:aws:logs:us-east-1:111122223333:log-group:/aws/sagemaker/Clusters/*:log-stream:*" ] } ] }
  6. この関連付けにアタッチされている IAM ロールに次の信頼ポリシーがあることを確認します。ソース ARN とソースアカウントが正しいことを検証します。

    JSON
    { "Version":"2012-10-17", "Statement": [ { "Sid": "AllowEksAuthToAssumeRoleForPodIdentity", "Effect": "Allow", "Principal": { "Service": "pods.eks.amazonaws.com" }, "Action": [ "sts:AssumeRole", "sts:TagSession" ], "Condition": { "StringEquals": { "aws:SourceArn": "arn:aws:eks:us-east-1:111122223333:cluster/cluster-name", "aws:SourceAccount": "111122223333" } } } ] }

Amazon Managed Service for Prometheus のスロットリングを確認する

  1. にサインインAWS マネジメントコンソールし、https://console.aws.amazon.com/servicequotas/ で Service Quotas コンソールを開きます。

  2. [マネージドクォータ] ボックスで、Amazon Managed Service for Prometheus を検索して選択します。

  3. [ワークスペースあたりのアクティブシリーズ] クォータを選択します。

  4. [リソースレベルのクォータ] タブで、Amazon Managed Service for Prometheus ワークスペースを選択します。

  5. 使用率が現在のクォータ未満であることを確認します。

  6. クォータ制限に達している場合は、左側のラジオボタンをオンにしてワークスペースを選択し、[リソースレベルで引き上げをリクエスト] を選択します。

KV キャッシュとインテリジェントルーティングが有効になっていることを確認する

KVCache Metrics ダッシュボードがない場合、機能は有効になっていないか、ポートが に記載されていませんmodelMetrics。これを有効にする方法の詳細については、「」のステップ 1 と 3 を参照してくださいパフォーマンスを向上させるために KV キャッシュとインテリジェントルーティングを設定する

Intelligent Router Metrics ダッシュボードがない場合は、機能を有効にして表示させます。これを有効にする方法の詳細については、「」を参照してくださいパフォーマンスを向上させるために KV キャッシュとインテリジェントルーティングを設定する

アドオンのインストール失敗のトラブルシューティング

オブザーバビリティアドオンのインストールに失敗した場合、次の手順を使用して問題を診断して解決します。

ヘルスプローブのステータスを確認する

  1. https://console.aws.amazon.com/eks/home#/clusters で Amazon EKS コンソールを開きます。

  2. クラスターを選択します。

  3. [アドオン] タブを選択してください。

  4. 失敗したアドオンを選択します。

  5. [ヘルスの問題] セクションを確認します。

  6. ヘルスの問題が認証情報またはポッド ID に関連している場合は、「Pod Identity の関連付けを検証する」を参照してください。また、ポッド ID エージェントのアドオンがクラスターで実行されていることを確認します。

  7. マネージャーログにエラーがないか確認します。手順については、「マネージャーログを確認する」を参照してください。

  8. 問題の詳細については、 AWSサポートにお問い合わせください。

マネージャーログを確認する

  1. アドオンマネージャーポッドを取得します。

    kubectl logs -n hyperpod-observability -l control-plane=hyperpod-observability-controller-manager
  2. 緊急の問題については、サポート にお問い合わせください。

すべてのオブザーバビリティポッドを確認する

SageMaker HyperPod オブザーバビリティアドオンが作成するすべてのポッドは、hyperpod-observability 名前空間にあります。次のコマンドを実行して、デプロイのステータスを取得します。

kubectl get pods -n hyperpod-observability

ステータスが pending または crashloopbackoff のポッドを探します。次のコマンドを実行して、保留中または失敗したポッドのログを取得します。

kubectl logs -n hyperpod-observability pod-name

ログにエラーが見つからない場合は、次のコマンドを実行してポッドを説明し、エラーを探します。

kubectl describe -n hyperpod-observability pod pod-name

さらにコンテキストを取得するには、次の 2 つのコマンドを実行して、これらのポッドのデプロイとデーモンセットについて説明します。

kubectl describe -n hyperpod-observability deployment deployment-name
kubectl describe -n hyperpod-observability daemonset daemonset-name

保留中のステータスのままになっているポッドのトラブルシューティング

pending ステータスのままになっているポッドがある場合は、ノードがすべてのポッドに収まるサイズであることを確認します。検証するには、次の手順を実行します。

  1. https://console.aws.amazon.com/eks/home#/clusters で Amazon EKS コンソールを開きます。

  2. クラスターを選択します。

  3. クラスターの [コンピューティング] タブを選択します。

  4. インスタンスタイプが最も小さいノードを選択します。

  5. キャパシティ割り当てセクションで、使用可能なポッドを探します。

  6. 使用可能なポッドがない場合は、よりサイズの大きいインスタンスタイプが必要です。

緊急の問題については、AWS サポート にお問い合わせください。