Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Mencoba membuat cluster
Saat menggunakan AWS ParallelCluster versi 3.5.0 dan yang lebih baru untuk membuat cluster, dan pembuatan cluster gagal dengan --rollback-on-failure set tofalse, gunakan perintah pcluster mendeskripsikan-cluster CLI untuk mendapatkan informasi status dan kegagalan. Dalam hal ini, pcluster describe-cluster output clusterStatus yang diharapkan adalahCREATE_FAILED. Periksa failures bagian dalam output untuk menemukan failureCode danfailureReason. Kemudian, di bagian berikut, temukan pencocokan failureCode untuk bantuan pemecahan masalah tambahan. Untuk informasi selengkapnya, lihat pcluster mendeskripsikan-cluster.
Di bagian berikut, kami sarankan Anda memeriksa log pada node kepala, seperti /var/log/chef-client.log file /var/log/cfn-init.log dan. Untuk informasi selengkapnya tentang AWS ParallelCluster log dan cara melihatnya, lihat Log kunci untuk debugging danMengambil dan melestarikan log.
Jika Anda tidak memilikifailureCode, navigasikan ke CloudFormation konsol untuk melihat tumpukan cluster. Periksa Status Reason untuk HeadNodeWaitCondition atau kegagalan pada sumber daya lain untuk menemukan rincian kegagalan tambahan. Untuk informasi selengkapnya, lihat Tampilan CloudFormation acara di CREATE_FAILED. Periksa /var/log/chef-client.log file /var/log/cfn-init.log dan pada node kepala. Jika pembuatan cluster gagal karena kegagalan pembuatan node kepala dan log cluster tidak tersedia di grup log cluster, Anda harus mempertahankan cluster pada kegagalan, menentukan --rollback-on-failure = True dan mengambil log dari dalam node kepala itu sendiri.
FailureCode adalah OnNodeConfiguredExecutionFailure
-
Mengapa gagal?
Anda menyediakan skrip kustom di
OnNodeConfiguredbagian simpul kepala dalam konfigurasi untuk membuat cluster. Namun, skrip khusus gagal dijalankan. -
Bagaimana cara mengatasinya?
Periksa
/var/log/cfn-init.logfile untuk mempelajari lebih lanjut tentang kegagalan dan cara memperbaiki masalah dalam skrip kustom Anda. Menjelang akhir log ini, Anda mungkin melihat menjalankan informasi yang terkait denganOnNodeConfiguredskrip setelahRunning command runpostinstallpesan.
FailureCode adalah OnNodeConfiguredDownloadFailure
-
Mengapa gagal?
Anda menyediakan skrip kustom di
OnNodeConfiguredbagian simpul kepala dalam konfigurasi untuk membuat cluster. Namun, skrip khusus gagal diunduh. -
Bagaimana cara mengatasinya?
Pastikan URL valid dan akses dikonfigurasi dengan benar. Untuk informasi lebih lanjut tentang konfigurasi skrip bootstrap kustom, lihatTindakan bootstrap kustom.
Periksa
/var/log/cfn-init.logfilenya. Menjelang akhir log ini, Anda mungkin melihat menjalankan informasi yang terkait dengan pemrosesanOnNodeConfiguredskrip, termasuk mengunduh, setelahRunning command runpostinstallpesan.
FailureCode adalah OnNodeConfiguredFailure
-
Mengapa gagal?
Anda menyediakan skrip kustom di
OnNodeConfiguredbagian simpul kepala dalam konfigurasi untuk membuat cluster. Namun, penggunaan skrip khusus gagal dalam penerapan cluster. Penyebab langsung tidak dapat ditentukan dan penyelidikan tambahan diperlukan. -
Bagaimana cara mengatasinya?
Periksa
/var/log/cfn-init.logfilenya. Menjelang akhir log ini, Anda mungkin melihat menjalankan informasi yang terkait dengan pemrosesanOnNodeConfiguredskrip setelahRunning command runpostinstallpesan.
FailureCode adalah OnNodeStartExecutionFailure
-
Mengapa gagal?
Anda menyediakan skrip kustom di
OnNodeStartbagian simpul kepala dalam konfigurasi untuk membuat cluster. Namun, skrip khusus gagal dijalankan. -
Bagaimana cara mengatasinya?
Periksa
/var/log/cfn-init.logfile untuk mempelajari lebih lanjut tentang kegagalan dan cara memperbaiki masalah dalam skrip kustom Anda. Menjelang akhir log ini, Anda mungkin melihat menjalankan informasi yang terkait denganOnNodeStartskrip setelahRunning command runpreinstallpesan.
FailureCode adalah OnNodeStartDownloadFailure
-
Mengapa gagal?
Anda menyediakan skrip kustom di
OnNodeStartbagian simpul kepala dalam konfigurasi untuk membuat cluster. Namun, skrip khusus gagal diunduh. -
Bagaimana cara mengatasinya?
Pastikan URL valid dan akses dikonfigurasi dengan benar. Untuk informasi lebih lanjut tentang konfigurasi skrip bootstrap kustom, lihatTindakan bootstrap kustom.
Periksa
/var/log/cfn-init.logfilenya. Menjelang akhir log ini, Anda mungkin melihat menjalankan informasi yang terkait dengan pemrosesanOnNodeStartskrip, termasuk mengunduh, setelahRunning command runpreinstallpesan.
FailureCode adalah OnNodeStartFailure
-
Mengapa gagal?
Anda menyediakan skrip kustom di
OnNodeStartbagian node kepala dalam konfigurasi untuk membuat cluster. Namun, penggunaan skrip khusus gagal dalam penerapan cluster. Penyebab langsung tidak dapat ditentukan dan penyelidikan tambahan diperlukan. -
Bagaimana cara mengatasinya?
Periksa
/var/log/cfn-init.logfilenya. Menjelang akhir log ini, Anda mungkin melihat menjalankan informasi yang terkait dengan pemrosesanOnNodeStartskrip setelahRunning command runpreinstallpesan.
FailureCode adalah EbsMountFailure
-
Mengapa gagal?
Volume EBS yang ditentukan dalam konfigurasi cluster gagal dipasang.
-
Bagaimana cara mengatasinya?
Periksa
/var/log/chef-client.logfile untuk rincian kegagalan.
FailureCode adalah EfsMountFailure
-
Mengapa gagal?
Volume Amazon EFS yang ditentukan dalam konfigurasi cluster gagal dipasang.
-
Bagaimana cara mengatasinya?
Jika Anda mendefinisikan sistem file Amazon EFS yang ada, pastikan lalu lintas diizinkan antara cluster dan sistem file. Untuk informasi lebih lanjut, lihat SharedStorage/EfsSettings/FileSystemId.
Periksa
/var/log/chef-client.logfile untuk rincian kegagalan.
FailureCode adalah FsxMountFailure
-
Mengapa gagal?
Sistem file Amazon FSx yang ditentukan dalam konfigurasi cluster gagal dipasang.
-
Bagaimana cara mengatasinya?
Jika Anda mendefinisikan sistem file Amazon FSx yang ada, pastikan lalu lintas diizinkan antara cluster dan sistem file. Untuk informasi lebih lanjut, lihat SharedStorage/FsxLustreSettings/FileSystemId.
Periksa
/var/log/chef-client.logfile untuk rincian kegagalan.
FailureCode adalah RaidMountFailure
-
Mengapa gagal?
Volume RAID yang ditentukan dalam konfigurasi cluster gagal dipasang.
-
Bagaimana cara mengatasinya?
Periksa
/var/log/chef-client.logfile untuk rincian kegagalan.
FailureCode adalah AmiVersionMismatch
-
Mengapa gagal?
AWS ParallelCluster Versi yang digunakan untuk membuat AMI kustom berbeda dari AWS ParallelCluster versi yang digunakan untuk mengkonfigurasi cluster. Di CloudFormation konsol, lihat detail CloudFormation tumpukan cluster dan periksa
Status ReasonHeadNodeWaitConditionuntuk mendapatkan detail tambahan tentang AWS ParallelCluster versi dan AMI. Untuk informasi selengkapnya, lihat Tampilan CloudFormation acara di CREATE_FAILED. -
Bagaimana cara mengatasinya?
Pastikan AWS ParallelCluster versi yang digunakan untuk membuat AMI kustom adalah AWS ParallelCluster versi yang sama yang digunakan untuk mengkonfigurasi cluster. Anda dapat mengubah versi AMI kustom atau versi
pclusterCLI untuk membuatnya sama.
FailureCode adalah InvalidAmi
-
Mengapa gagal?
AMI kustom tidak valid karena tidak dibuat menggunakan. AWS ParallelCluster
-
Bagaimana cara mengatasinya?
Gunakan
pcluster build-imageperintah untuk membuat AMI dengan menjadikan AMI Anda sebagai gambar induk. Untuk informasi selengkapnya, lihat gambar build pcluster.
FailureCode HeadNodeBootstrapFailuredengan FailureReason Gagal mengatur node kepala.
HeadNodeBootstrapFailure-
Mengapa gagal?
Penyebab langsung tidak dapat ditentukan dan penyelidikan tambahan diperlukan. Misalnya, bisa jadi cluster dalam status dilindungi, dan ini bisa disebabkan oleh kegagalan untuk menyediakan armada komputasi statis.
-
Bagaimana cara mengatasinya?
Periksa
/var/log/chef-client.log.file untuk rincian kegagalan.catatan
Jika Anda melihat
RuntimeErrorpengecualianCluster state has been set to PROTECTED mode due to failures detected in static node provisioning, klaster dalam status dilindungi. Untuk informasi selengkapnya, lihat Cara men-debug mode yang dilindungi.
FailureCode HeadNodeBootstrapFailuredengan pembuatan FailureReason Cluster habis waktunya.
HeadNodeBootstrapFailure-
Mengapa gagal?
Secara default, ada batas waktu 30 menit untuk menyelesaikan pembuatan cluster. Jika pembuatan klaster belum selesai dalam jangka waktu ini, pembuatan klaster gagal dengan kesalahan batas waktu. Pembuatan cluster dapat batas waktu karena berbagai alasan. Misalnya, kegagalan batas waktu dapat disebabkan oleh kegagalan pembuatan node kepala, masalah jaringan, skrip khusus yang terlalu lama untuk dijalankan di node kepala, kesalahan dalam skrip khusus yang berjalan di node komputasi, atau waktu tunggu yang lama untuk penyediaan node komputasi. Penyebab langsung tidak dapat ditentukan dan penyelidikan tambahan diperlukan.
-
Bagaimana cara mengatasinya?
Periksa
/var/log/chef-client.logfile/var/log/cfn-init.logdan untuk rincian kegagalan. Untuk informasi lebih lanjut tentang AWS ParallelCluster log dan cara mendapatkannya, lihat Log kunci untuk debugging danMengambil dan melestarikan log.Anda mungkin menemukan yang berikut di log ini.
-
Melihat di
Waiting for static fleet capacity provisioningdekat akhirchef-client.logIni menunjukkan bahwa waktu pembuatan cluster habis saat menunggu node statis dinyalakan. Untuk informasi selengkapnya, lihat Melihat kesalahan dalam inisialisasi node komputasi.
-
Melihat
OnNodeConfiguredatau skrip nodeOnNodeStartkepala belum selesai di akhircfn-init.logIni menunjukkan bahwa skrip
OnNodeConfiguredatauOnNodeStartkustom membutuhkan waktu lama untuk dijalankan dan menyebabkan kesalahan batas waktu. Periksa skrip kustom Anda untuk masalah yang mungkin menyebabkannya berjalan untuk waktu yang lama. Jika skrip kustom Anda memerlukan waktu yang lama untuk dijalankan, pertimbangkan untuk mengubah batas batas waktu dengan menambahkanDevSettingsbagian ke file konfigurasi cluster Anda, seperti yang ditunjukkan pada contoh berikut:DevSettings: Timeouts: HeadNodeBootstrapTimeout: 2100 # default setting: 2100 seconds -
Tidak dapat menemukan log, atau node kepala tidak berhasil dibuat
Ada kemungkinan bahwa node kepala tidak berhasil dibuat dan log tidak dapat ditemukan. Dalam hal ini, Anda bisa mendapatkan detail kegagalan tambahan dengan memeriksa peristiwa CloudFormation tumpukan dan log konsol node kepala. Anda dapat mengambil log konsol node kepala melalui konsol Amazon EC2 atau dengan menjalankan perintah Amazon EC2 CLI berikut:
aws ec2 get-console-output --instance-idHEAD_NODE_INSTANCE_ID--output text
-
FailureCode HeadNodeBootstrapFailuredengan FailureReason Gagal mem-bootstrap node kepala.
HeadNodeBootstrapFailure-
Mengapa gagal?
Penyebab langsung tidak dapat ditentukan dan penyelidikan tambahan diperlukan.
-
Bagaimana cara mengatasinya?
Periksa
/var/log/chef-client.logfile/var/log/cfn-init.logdan.
FailureCode adalah ResourceCreationFailure
-
Mengapa gagal?
Penciptaan beberapa sumber daya gagal selama proses pembuatan cluster. Kegagalan dapat terjadi karena berbagai alasan. Misalnya, kegagalan pembuatan sumber daya dapat disebabkan oleh masalah kapasitas atau kebijakan IAM yang salah konfigurasi.
-
Bagaimana cara mengatasinya?
Di CloudFormation konsol, lihat tumpukan cluster untuk memeriksa detail kegagalan pembuatan sumber daya tambahan.
FailureCode adalah ClusterCreationFailure
-
Mengapa gagal?
Penyebab langsung tidak dapat ditentukan dan penyelidikan tambahan diperlukan.
-
Bagaimana cara mengatasinya?
Di CloudFormation konsol, lihat tumpukan cluster dan periksa
Status ReasonHeadNodeWaitConditionuntuk menemukan rincian kegagalan tambahan.Periksa
/var/log/chef-client.logfile/var/log/cfn-init.logdan.
Melihat WaitCondition waktu habis... dalam CloudFormation tumpukan
Untuk informasi selengkapnya, lihat FailureCode HeadNodeBootstrapFailuredengan pembuatan FailureReason Cluster habis waktunya..
Melihat pembuatan Sumber Daya dibatalkan di tumpukan CloudFormation
Untuk informasi selengkapnya, lihat FailureCode adalah ResourceCreationFailure.
Melihat Gagal menjalankan cfn-init... atau kesalahan lain dalam CloudFormation tumpukan
Periksa /var/log/cfn-init.log dan /var/log/chef-client.log untuk rincian kegagalan tambahan.
Melihat chef-client.log diakhiri dengan INFO: Menunggu penyediaan kapasitas armada statis
Ini terkait dengan batas waktu pembuatan cluster saat menunggu node statis dinyalakan. Untuk informasi selengkapnya, lihat Melihat kesalahan dalam inisialisasi node komputasi.
Melihat Gagal menjalankan preinstall atau postinstall di cfn-init.log
Anda memiliki OnNodeStart skrip OnNodeConfigured atau di HeadNode bagian konfigurasi cluster. Script tidak berfungsi dengan benar. Periksa /var/log/cfn-init.log file untuk detail kesalahan skrip kustom.
Melihat AMI ini dibuat dengan xxx, tetapi mencoba digunakan dengan xxx... dalam CloudFormation tumpukan
Untuk informasi selengkapnya, lihat FailureCode adalah AmiVersionMismatch.
Melihat AMI ini tidak dipanggang oleh AWS ParallelCluster...dalam CloudFormation tumpukan
Untuk informasi selengkapnya, lihat FailureCode adalah InvalidAmi.
Melihat perintah pcluster create-cluster gagal dijalankan secara lokal
Periksa ~/.parallelcluster/pcluster-cli.log di sistem file lokal Anda untuk rincian kegagalan.
Dukungan Tambahan
Ikuti panduan pemecahan masalah di. Memecahkan masalah penerapan klaster
Periksa untuk melihat apakah skenario Anda tercakup dalam Masalah GitHub yang Diketahui