Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Pemecahan Masalah
Halaman berikut berisi solusi yang diketahui untuk memecahkan masalah kluster HyperPod EKS Anda.
Dasbor tab
Pengaya EKS gagal dipasang
Agar instalasi add-on EKS berhasil, Anda harus memiliki versi Kubernets>= 1.30. Untuk memperbarui, lihat Memperbarui versi Kubernetes.
Agar instalasi add-on EKS berhasil, semua node harus dalam status Ready dan semua pod harus dalam status Running.
Untuk memeriksa status node Anda, gunakan list-cluster-nodes
AWS CLI perintah atau navigasikan ke kluster EKS Anda di konsol EKS
Untuk memeriksa status pod Anda, gunakan kubectl get pods -n cloudwatch-agent
perintah CLI Kubernetescloudwatch-agent
Selesaikan masalah Pod atau hubungi administrator Anda untuk menyelesaikan masalah. Setelah semua status pod Berjalan, coba lagi instal add-on EKS HyperPod dari konsol Amazon SageMaker
Untuk pemecahan masalah lainnya, lihat Memecahkan masalah add-on CloudWatch Amazon Observability EKS.
Tab Tugas
Jika Anda melihat pesan galat tentang bagaimana Definisi Sumber Daya Kustom (CRD) tidak dikonfigurasi di klaster, berikan EKSAdminViewPolicy
dan ClusterAccessRole
kebijakan untuk peran eksekusi domain Anda.
-
Untuk informasi tentang cara mendapatkan peran eksekusi Anda, lihatDapatkan peran eksekusi.
-
Untuk mempelajari cara melampirkan kebijakan ke pengguna atau grup IAM, lihat Menambahkan dan menghapus izin identitas IAM.
Kebijakan
Berikut ini mencantumkan solusi untuk kesalahan yang berkaitan dengan kebijakan yang menggunakan HyperPod APIs atau konsol.
-
Jika kebijakan dalam
CreateFailed
atauCreateRollbackFailed
status, Anda perlu menghapus kebijakan yang gagal dan membuat yang baru. -
Jika kebijakan dalam
UpdateFailed
status, coba lagi pembaruan dengan kebijakan yang sama ARN. -
Jika kebijakan dalam
UpdateRollbackFailed
status, Anda perlu menghapus kebijakan yang gagal dan kemudian membuat yang baru. -
Jika kebijakan dalam
DeleteFailed
atauDeleteRollbackFailed
status, coba lagi penghapusan dengan kebijakan yang sama ARN.-
Jika Anda mengalami kesalahan saat mencoba menghapus prioritas Komputasi, atau kebijakan klaster, menggunakan HyperPod konsol, coba hapus
cluster-scheduler-config
penggunaan API. Untuk memeriksa status sumber daya, buka halaman detail alokasi komputasi.
-
Untuk melihat detail lebih lanjut tentang kegagalan, gunakan API describe.
Menghapus klaster
Berikut daftar solusi yang diketahui untuk kesalahan yang berkaitan dengan menghapus cluster.
-
Ketika penghapusan klaster gagal karena kebijakan tata kelola SageMaker HyperPod tugas terlampir, Anda harus melakukannya. Menghapus kebijakan
-
Ketika penghapusan klaster gagal karena izin berikut hilang, Anda perlu memperbarui set izin minimum administrator klaster Anda. Lihat tab Amazon EKS di Pengguna IAM untuk admin cluster bagian ini.
-
sagemaker:ListComputeQuotas
-
sagemaker:ListClusterSchedulerConfig
-
sagemaker:DeleteComputeQuota
-
sagemaker:DeleteClusterSchedulerConfig
-