翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
トラブルシューティング
次のページには、HyperPod EKS クラスターをトラブルシューティングするための既知のソリューションが含まれています。
[Dashboard] (ダッシュボード) タブ
EKS アドオンのインストールに失敗する
EKS アドオンのインストールを成功させるには、Kubernets バージョン >= 1.30 が必要です。更新するには、「Kubernetes バージョンの更新」を参照してください。
EKS アドオンのインストールを成功させるには、すべてのノードが準備完了ステータスで、すべてのポッドが実行中ステータスである必要があります。
ノードのステータスを確認するには、 list-cluster-nodes
AWS CLI コマンドを使用するか、EKS コンソールで EKS
ポッドのステータスを確認するには、Kubernetes CLIkubectl get pods -n cloudwatch-agent
か、EKS コンソールで EKScloudwatch-agent
。ポッドの問題を解決するか、管理者に連絡して問題を解決します。すべてのポッドステータスが実行されたら、Amazon SageMaker AI コンソール
トラブルシューティングの詳細については、Amazon CloudWatch Observability EKS アドオンのトラブルシューティング」を参照してください。
タスクタブ
クラスターでカスタムリソース定義 (CRD) が設定されていない方法に関するエラーメッセージが表示された場合は、ドメイン実行ロールに EKSAdminViewPolicy
および ClusterAccessRole
ポリシーを付与します。
-
実行ロールを取得する方法の詳細については、「実行ロールを取得する」を参照してください。
-
IAM ユーザーまたはグループにポリシーをアタッチする方法については、「IAM ID アクセス許可の追加と削除」を参照してください。
ポリシー
HyperPod APIs またはコンソールを使用したポリシーに関連するエラーの解決策を以下に示します。
-
ポリシーが
CreateFailed
またはCreateRollbackFailed
ステータスの場合、失敗したポリシーを削除して新しいポリシーを作成する必要があります。 -
ポリシーが
UpdateFailed
ステータスの場合は、同じポリシー ARN で更新を再試行します。 -
ポリシーのステータスが の場合
UpdateRollbackFailed
、失敗したポリシーを削除してから新しいポリシーを作成する必要があります。 -
ポリシーが
DeleteFailed
またはDeleteRollbackFailed
ステータスの場合は、同じポリシー ARN で削除を再試行します。-
HyperPod コンソールを使用して、コンピューティングの優先順位付けまたはクラスターポリシーを削除しようとしたときにエラーが発生した場合は、 API
cluster-scheduler-config
を使用して を削除してみてください。リソースのステータスを確認するには、コンピューティング割り当ての詳細ページに移動します。
-
失敗の詳細を確認するには、describe API を使用します。
クラスターの削除
クラスターの削除に関連するエラーの既知の解決策を以下に示します。
-
SageMaker HyperPod タスクガバナンスポリシーがアタッチされたためにクラスターの削除が失敗した場合、 が必要ですポリシーを削除する。
-
以下のアクセス許可がないためにクラスターの削除が失敗した場合、クラスター管理者のアクセス許可の最小セットを更新する必要があります。クラスター管理者の IAM ユーザー 「」セクションの「Amazon EKS」タブを参照してください。
-
sagemaker:ListComputeQuotas
-
sagemaker:ListClusterSchedulerConfig
-
sagemaker:DeleteComputeQuota
-
sagemaker:DeleteClusterSchedulerConfig
-