トラブルシューティング - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

トラブルシューティング

次のページには、HyperPod EKS クラスターをトラブルシューティングするための既知のソリューションが含まれています。

[Dashboard] (ダッシュボード) タブ

EKS アドオンのインストールに失敗する

EKS アドオンのインストールを成功させるには、Kubernets バージョン >= 1.30 が必要です。更新するには、「Kubernetes バージョンの更新」を参照してください。

EKS アドオンのインストールを成功させるには、すべてのノードが準備完了ステータスで、すべてのポッドが実行中ステータスである必要があります。

ノードのステータスを確認するには、 list-cluster-nodes AWS CLI コマンドを使用するか、EKS コンソールで EKS クラスターに移動し、ノードのステータスを表示します。各ノードの問題を解決するか、管理者にお問い合わせください。ノードのステータスが不明の場合は、ノードを削除します。すべてのノードのステータスが準備完了になったら、Amazon SageMaker AI コンソールから HyperPod に EKS アドオンのインストールを再試行してください。

ポッドのステータスを確認するには、Kubernetes CLI コマンドを使用するkubectl get pods -n cloudwatch-agentか、EKS コンソールで EKS クラスターに移動し、名前空間 を使用してポッドのステータスを表示しますcloudwatch-agent。ポッドの問題を解決するか、管理者に連絡して問題を解決します。すべてのポッドステータスが実行されたら、Amazon SageMaker AI コンソールから HyperPod に EKS アドオンのインストールを再試行します。

トラブルシューティングの詳細については、Amazon CloudWatch Observability EKS アドオンのトラブルシューティング」を参照してください。

タスクタブ

クラスターでカスタムリソース定義 (CRD) が設定されていない方法に関するエラーメッセージが表示された場合は、ドメイン実行ロールに EKSAdminViewPolicyおよび ClusterAccessRoleポリシーを付与します。

ポリシー

HyperPod APIs またはコンソールを使用したポリシーに関連するエラーの解決策を以下に示します。

  • ポリシーが CreateFailedまたは CreateRollbackFailedステータスの場合、失敗したポリシーを削除して新しいポリシーを作成する必要があります。

  • ポリシーが UpdateFailedステータスの場合は、同じポリシー ARN で更新を再試行します。

  • ポリシーのステータスが の場合UpdateRollbackFailed、失敗したポリシーを削除してから新しいポリシーを作成する必要があります。

  • ポリシーが DeleteFailedまたは DeleteRollbackFailedステータスの場合は、同じポリシー ARN で削除を再試行します。

    • HyperPod コンソールを使用して、コンピューティングの優先順位付けまたはクラスターポリシーを削除しようとしたときにエラーが発生した場合は、 API cluster-scheduler-configを使用して を削除してみてください。リソースのステータスを確認するには、コンピューティング割り当ての詳細ページに移動します。

失敗の詳細を確認するには、describe API を使用します。

クラスターの削除

クラスターの削除に関連するエラーの既知の解決策を以下に示します。

  • SageMaker HyperPod タスクガバナンスポリシーがアタッチされたためにクラスターの削除が失敗した場合、 が必要ですポリシーを削除する

  • 以下のアクセス許可がないためにクラスターの削除が失敗した場合、クラスター管理者のアクセス許可の最小セットを更新する必要があります。クラスター管理者の IAM ユーザー 「」セクションの「Amazon EKS」タブを参照してください。

    • sagemaker:ListComputeQuotas

    • sagemaker:ListClusterSchedulerConfig

    • sagemaker:DeleteComputeQuota

    • sagemaker:DeleteClusterSchedulerConfig