トラブルシューティング - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

トラブルシューティング

次のセクションでは、Studio の HyperPod のトラブルシューティングソリューションを一覧表示しています。

タスクタブ

[タスク] タブでクラスターにカスタムリソース定義 (CRD) が設定されていませんというメッセージが表示される場合

  • ドメイン実行ロールに EKSAdminViewPolicy ポリシーと ClusterAccessRole ポリシーを付与します。

    実行ロールにタグを追加する方法については、「IAM ロールにタグ付けする」を参照してください。

    IAM ユーザーまたはグループにポリシーをアタッチする方法については、「IAM ID のアクセス許可の追加および削除」を参照してください。

Slurm メトリクスのタスクグリッドが [タスク] タブのロードを停止しない場合。

Studio for EKS クラスターのタスクビューを制限する:

  • 実行ロールに EKS クラスターの名前空間を一覧表示するアクセス許可がない場合。

  • EKS クラスターへのアクセスに問題がある場合。

    1. 次のAWS CLIコマンドを実行して、RBAC が有効になっていることを確認します。

      kubectl api-versions | grep rbac

      これにより、rbac.authorization.k8s.io/v1 が返されます。

    2. 次のコマンドを実行して、ClusterRoleClusterRoleBinding が存在するかどうかを確認します。

      kubectl get clusterrole pods-events-crd-cluster-role kubectl get clusterrolebinding pods-events-crd-cluster-role-binding
    3. ユーザーグループのメンバーシップを検証します。アイデンティティプロバイダーまたは IAM の pods-events-crd-cluster-level グループにユーザーが適切に割り当てられていることを確認します。

  • ユーザーがリソースを表示できない場合。

    • グループメンバーシップを検証し、ClusterRoleBinding が正しく適用されていることを確認します。

  • ユーザーがすべての名前空間でリソースを表示できる場合。

    • 名前空間の制限が必要な場合は、ClusterRoleClusterRoleBinding の代わりに RoleRoleBinding の使用を検討してください。

  • 設定が正しいようだが、アクセス許可が適用されない場合。

    • アクセスを妨げている PodSecurityPolicies または NetworkPolicies があるかどうかを確認します。

メトリクスタブ

[メトリクス] タブで、Amazon CloudWatch メトリクスが表示されない場合。

  • HyperPod クラスターの詳細の Metrics セクションでは、CloudWatch を使用してデータを取得します。このセクションのメトリクスを表示するには、クラスターとタスクのオブザーバビリティ が有効になっている必要があります。メトリクスを設定するには、管理者に連絡します。