翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon SageMaker HyperPod オブザーバビリティアドオンのトラブルシューティング
Amazon SageMaker HyperPod (SageMaker HyperPod) オブザーバビリティアドオンの一般的な問題を解決するには、次のガイダンスを使用します。
Amazon Managed Grafana で提供されないメトリクスのトラブルシューティング
Amazon Managed Grafana ダッシュボードにメトリクスが表示されない場合は、次の手順を実行して問題を特定し、解決します。
Amazon Managed Service for Prometheus-Amazon Managed Grafana の接続を検証する
-
Amazon Managed Grafana コンソールにサインインします。
-
左側のペインで、[すべてのワークスペース] を選択します。
-
[WorkSpaces] テーブルで、ワークスペースを選択します。
-
ワークスペースの詳細ページで、[データソース] タブを選択します。
-
Amazon Managed Service for Prometheus データソースが存在することを確認します。
-
接続設定を確認します。
-
エンドポイント URLが正しいことを確認します。
-
IAM 認証が適切に設定されていることを検証します。
-
[Test connection] を選択します。ステータスが [データソースは機能しています] であることを検証します。
-
Amazon EKS アドオンのステータスを検証する
https://console.aws.amazon.com/eks/home#/clusters
で Amazon EKS コンソールを開きます。 -
クラスターを選択します。
-
[アドオン] タブを選択してください。
-
SageMaker HyperPod オブザーバビリティアドオンが表示され、そのステータスが [アクティブ] であることを検証します。
-
ステータスが [アクティブ] でない場合は、「」を参照してくださいアドオンのインストール失敗のトラブルシューティング。
Pod Identity の関連付けを検証する
https://console.aws.amazon.com/eks/home#/clusters
で Amazon EKS コンソールを開きます。 -
クラスターを選択します。
-
クラスターの詳細ページで、[アクセス] タブをクリックします。
-
[Pod Identity の関連付け] テーブルで、次のプロパティ値を持つ関連付けを選択します。
-
名前空間:
hyperpod-observability -
サービスアカウント:
hyperpod-observability-operator-otel-collector -
アドオン:
amazon-sagemaker-hyperpod-observability
-
-
この関連付けにアタッチされている IAM ロールに次のアクセス許可があることを確認します。
-
この関連付けにアタッチされている IAM ロールに次の信頼ポリシーがあることを確認します。ソース ARN とソースアカウントが正しいことを検証します。
Amazon Managed Service for Prometheus のスロットリングを確認する
-
にサインインAWS マネジメントコンソールし、https://console.aws.amazon.com/servicequotas/
で Service Quotas コンソールを開きます。 -
[マネージドクォータ] ボックスで、Amazon Managed Service for Prometheus を検索して選択します。
-
[ワークスペースあたりのアクティブシリーズ] クォータを選択します。
-
[リソースレベルのクォータ] タブで、Amazon Managed Service for Prometheus ワークスペースを選択します。
-
使用率が現在のクォータ未満であることを確認します。
-
クォータ制限に達している場合は、左側のラジオボタンをオンにしてワークスペースを選択し、[リソースレベルで引き上げをリクエスト] を選択します。
KV キャッシュとインテリジェントルーティングが有効になっていることを確認する
KVCache Metrics ダッシュボードがない場合、機能は有効になっていないか、ポートが に記載されていませんmodelMetrics。これを有効にする方法の詳細については、「」のステップ 1 と 3 を参照してくださいパフォーマンスを向上させるために KV キャッシュとインテリジェントルーティングを設定する。
Intelligent Router Metrics ダッシュボードがない場合は、機能を有効にして表示させます。これを有効にする方法の詳細については、「」を参照してくださいパフォーマンスを向上させるために KV キャッシュとインテリジェントルーティングを設定する。
アドオンのインストール失敗のトラブルシューティング
オブザーバビリティアドオンのインストールに失敗した場合、次の手順を使用して問題を診断して解決します。
ヘルスプローブのステータスを確認する
-
https://console.aws.amazon.com/eks/home#/clusters
で Amazon EKS コンソールを開きます。 -
クラスターを選択します。
-
[アドオン] タブを選択してください。
-
失敗したアドオンを選択します。
-
[ヘルスの問題] セクションを確認します。
-
ヘルスの問題が認証情報またはポッド ID に関連している場合は、「Pod Identity の関連付けを検証する」を参照してください。また、ポッド ID エージェントのアドオンがクラスターで実行されていることを確認します。
-
マネージャーログにエラーがないか確認します。手順については、「マネージャーログを確認する」を参照してください。
-
問題の詳細については、 AWSサポートにお問い合わせください。
マネージャーログを確認する
-
アドオンマネージャーポッドを取得します。
kubectl logs -n hyperpod-observability -l control-plane=hyperpod-observability-controller-manager -
緊急の問題については、サポート にお問い合わせください。
すべてのオブザーバビリティポッドを確認する
SageMaker HyperPod オブザーバビリティアドオンが作成するすべてのポッドは、hyperpod-observability 名前空間にあります。次のコマンドを実行して、デプロイのステータスを取得します。
kubectl get pods -n hyperpod-observability
ステータスが pending または crashloopbackoff のポッドを探します。次のコマンドを実行して、保留中または失敗したポッドのログを取得します。
kubectl logs -n hyperpod-observability pod-name
ログにエラーが見つからない場合は、次のコマンドを実行してポッドを説明し、エラーを探します。
kubectl describe -n hyperpod-observability pod pod-name
さらにコンテキストを取得するには、次の 2 つのコマンドを実行して、これらのポッドのデプロイとデーモンセットについて説明します。
kubectl describe -n hyperpod-observability deployment deployment-name
kubectl describe -n hyperpod-observability daemonset daemonset-name
保留中のステータスのままになっているポッドのトラブルシューティング
pending ステータスのままになっているポッドがある場合は、ノードがすべてのポッドに収まるサイズであることを確認します。検証するには、次の手順を実行します。
https://console.aws.amazon.com/eks/home#/clusters
で Amazon EKS コンソールを開きます。 -
クラスターを選択します。
-
クラスターの [コンピューティング] タブを選択します。
-
インスタンスタイプが最も小さいノードを選択します。
-
キャパシティ割り当てセクションで、使用可能なポッドを探します。
-
使用可能なポッドがない場合は、よりサイズの大きいインスタンスタイプが必要です。
緊急の問題については、AWS サポート にお問い合わせください。