トラブルシューティング - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

トラブルシューティング

次のページには、HyperPod EKS クラスターのトラブルシューティングに関する既知のソリューションが記載されています。

[Dashboard] (ダッシュボード) タブ

EKS アドオンのインストールに失敗しました

EKS アドオンのインストールを正常に完了するには、Kubernetes バージョン 1.30 以降が必要です。更新するには、「Kubernetes バージョンを更新する」を参照してください。

EKS アドオンのインストールを正常に完了するには、すべてのノードが [準備完了] ステータスで、すべてのポッドが [実行中] ステータスである必要があります。

ノードのステータスを確認するには、 list-cluster-nodesAWS CLIコマンドを使用するか、EKS コンソールで EKS クラスターに移動し、ノードのステータスを表示します。各ノードの問題を解決するか、管理者にお問い合わせください。ノードのステータスが [不明] の場合は、ノードを削除します。すべてのノードのステータスが [準備完了] になったら、Amazon SageMaker AI コンソールから HyperPod への EKS アドオンのインストールを再試行します。

ポッドのステータスを確認するには、Kubernetes CLI コマンド kubectl get pods -n cloudwatch-agent を使用するか、EKS コンソールで EKS クラスターに移動し、名前空間 cloudwatch-agent を持つポッドのステータスを表示します。ポッドの問題を解決するか、管理者に連絡して問題を解決してください。すべてのポッドのステータスが [実行中] になったら、Amazon SageMaker AI コンソールから HyperPod への EKS アドオンのインストールを再試行します。

トラブルシューティングの詳細については、「Amazon CloudWatch オブザーバビリティ EKS アドオンのトラブルシューティング」を参照してください。

タスクタブ

クラスターでカスタムリソース定義 (CRD) が設定されていないというエラーメッセージが表示された場合は、ドメイン実行ロールに EKSAdminViewPolicy ポリシーと ClusterAccessRole ポリシーを付与します。

ポリシー

HyperPod API またはコンソールを使用したポリシー関連エラーのソリューション一覧は、以下のとおりです。

  • ポリシーのステータスが CreateFailed または CreateRollbackFailed の場合、失敗したポリシーを削除して新しいポリシーを作成する必要があります。

  • ポリシーのステータスが UpdateFailed の場合、同じポリシー ARN を使用して更新を再試行します。

  • ポリシーのステータスが UpdateRollbackFailed の場合、失敗したポリシーを削除して新しいポリシーを作成する必要があります。

  • ポリシーのステータスが DeleteFailed または DeleteRollbackFailed の場合、同じポリシー ARN を使用して削除を再試行します。

    • HyperPod コンソールを使用してコンピューティング優先順位付けまたはクラスターポリシーを削除しようとしてエラーが発生した場合は、API を使用して cluster-scheduler-config を削除してみます。リソースのステータスを確認するには、コンピューティング割り当ての詳細ページに移動します。

失敗の詳細を確認するには、describe API を使用します。

クラスターの削除

クラスターの削除に関連するエラーの既知のソリューションは、以下のとおりです。

  • SageMaker HyperPod タスクガバナンスポリシーがアタッチされたためにクラスターの削除に失敗した場合、ポリシーを削除する が必要です。

  • 以下のアクセス許可がないためにクラスターの削除に失敗した場合、クラスター管理者のアクセス許可の最小限のセットを更新する必要があります。「クラスター管理者の IAM ユーザー」セクションの [Amazon EKS] タブを参照してください。

    • sagemaker:ListComputeQuotas

    • sagemaker:ListClusterSchedulerConfig

    • sagemaker:DeleteComputeQuota

    • sagemaker:DeleteClusterSchedulerConfig