Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Slurm mode terlindungi cluster
Ketika sebuah cluster berjalan dengan mode dilindungi diaktifkan, AWS ParallelCluster memantau dan melacak kegagalan bootstrap node komputasi saat node komputasi sedang diluncurkan. Hal ini dilakukan untuk mendeteksi apakah kegagalan ini terjadi terus menerus.
Jika berikut ini terdeteksi dalam antrian (partisi), cluster memasuki status dilindungi:
-
Kegagalan bootstrap node komputasi berturut-turut terjadi terus menerus tanpa peluncuran node komputasi yang berhasil.
-
Jumlah kegagalan mencapai ambang batas yang telah ditentukan.
Setelah cluster memasuki status dilindungi, AWS ParallelCluster menonaktifkan antrian dengan kegagalan pada atau di atas ambang batas yang telah ditentukan.
Slurm modus cluster dilindungi ditambahkan dalam AWS ParallelCluster versi 3.0.0.
Anda dapat menggunakan mode terlindungi untuk mengurangi waktu dan sumber daya yang dihabiskan untuk siklus kegagalan bootstrap node komputasi.
Parameter mode terlindungi
protected_failure_count
protected_failure_countmenentukan jumlah kegagalan berturut-turut dalam antrian (partisi) yang mengaktifkan status dilindungi cluster.
protected_failure_countDefaultnya adalah 10 dan mode terlindungi diaktifkan.
Jika protected_failure_count lebih besar dari nol, mode terlindungi diaktifkan.
Jika protected_failure_count kurang dari atau sama dengan nol, mode terlindungi dinonaktifkan.
Anda dapat mengubah protected_failure_count nilainya dengan menambahkan parameter di file clustermgtd konfigurasi yang terletak /etc/parallelcluster/slurm_plugin/parallelcluster_clustermgtd.conf di HeadNode file.
Anda dapat memperbarui parameter ini kapan saja dan Anda tidak perlu menghentikan armada komputasi untuk melakukannya. Jika peluncuran berhasil dalam antrian sebelum jumlah kegagalan mencapaiprotected_failure_count, hitungan kegagalan diatur ulang ke nol.
Periksa status klaster dalam status terlindungi
Saat klaster berada dalam status terlindungi, Anda dapat memeriksa status armada komputasi dan status node.
Hitung status armada
Status armada komputasi berada PROTECTED dalam cluster yang berjalan dalam status dilindungi.
$pcluster describe-compute-fleet --cluster-name<cluster-name>--region<region-id>{ "status": "PROTECTED", "lastStatusUpdatedTime": "2022-04-22T00:31:24.000Z" }
Status simpul
Untuk mempelajari antrian (partisi) mana yang memiliki kegagalan bootstrap yang telah mengaktifkan status terlindungi, masuk ke cluster dan jalankan perintah. sinfo Partisi dengan kegagalan bootstrap pada atau di atas protected_failure_count berada dalam INACTIVE keadaan. Partisi tanpa kegagalan bootstrap pada atau di atas protected_failure_count berada dalam UP keadaan dan berfungsi seperti yang diharapkan.
PROTECTEDstatus tidak berdampak pada menjalankan pekerjaan. Jika pekerjaan berjalan pada partisi dengan kegagalan bootstrap pada atau di atasprotected_failure_count, partisi diatur ke INACTIVE setelah pekerjaan yang berjalan selesai.
Pertimbangkan status simpul yang ditunjukkan pada contoh berikut.
$sinfoPARTITION AVAIL TIMELIMIT NODES STATE NODELIST queue1* inact infinite 10 down% queue1-dy-c5xlarge-[1-10] queue1* inact infinite 3490 idle~ queue1-dy-c5xlarge-[11-3500] queue2 up infinite 10 idle~ queue2-dy-c5xlarge-[1-10]
Partisi queue1 adalah INACTIVE karena 10 kegagalan bootstrap node komputasi berturut-turut terdeteksi.
Instance di belakang node queue1-dy-c5xlarge-[1-10] diluncurkan tetapi gagal bergabung dengan cluster karena status yang tidak sehat.
Cluster dalam status dilindungi.
Partisi queue2 tidak terpengaruh oleh kegagalan bootstrap diqueue1. Itu di UP negara bagian dan masih bisa menjalankan pekerjaan.
Cara menonaktifkan status yang dilindungi
Setelah kesalahan bootstrap diselesaikan, Anda dapat menjalankan perintah berikut untuk mengeluarkan cluster dari status yang dilindungi.
$pcluster update-compute-fleet --cluster-name<cluster-name>\ --region<region-id>\ --status START_REQUESTED
Kegagalan bootstrap yang mengaktifkan status dilindungi
Kesalahan bootstrap yang mengaktifkan status dilindungi dibagi lagi menjadi tiga jenis berikut. Untuk mengidentifikasi jenis dan masalah, Anda dapat memeriksa apakah log AWS ParallelCluster yang dihasilkan. Jika log dibuat, Anda dapat memeriksanya untuk detail kesalahan. Untuk informasi selengkapnya, lihat Mengambil dan melestarikan log.
-
Kesalahan bootstrap yang menyebabkan instance berhenti sendiri.
Sebuah instance gagal di awal proses bootstrap, seperti instance yang berhenti sendiri karena kesalahan dalam skrip SlurmQueues\ CustomActions\ OnNodeStart| OnNodeConfigured.
Untuk node dinamis, cari kesalahan yang mirip dengan berikut ini:
Node bootstrap error: Node ... is in power up state without valid backing instanceUntuk node statis, lihat di
clustermgtdlog (/var/log/parallelcluster/clustermgtd) untuk kesalahan yang mirip dengan berikut ini:Node bootstrap error: Node ... is in power up state without valid backing instance -
Node
resume_timeoutataunode_replacement_timeoutkedaluwarsa.Sebuah instance tidak dapat bergabung dengan cluster di dalam
resume_timeout(untuk node dinamis) ataunode_replacement_timeout(untuk node statis). Itu tidak berakhir sendiri sebelum batas waktu. Misalnya, jaringan tidak diatur dengan benar untuk cluster dan node diatur keDOWNstatus oleh Slurm setelah batas waktu berakhir.Untuk node dinamis, cari kesalahan yang mirip dengan berikut ini:
Node bootstrap error: Resume timeout expires for nodeUntuk node statis, lihat di
clustermgtdlog (/var/log/parallelcluster/clustermgtd) untuk kesalahan yang mirip dengan berikut ini:Node bootstrap error: Replacement timeout expires for node ... in replacement. -
Node gagal memeriksa kesehatan.
Instance di belakang node gagal pemeriksaan EC2 kesehatan Amazon atau pemeriksaan kesehatan acara terjadwal, dan node diperlakukan sebagai node kegagalan bootstrap. Dalam hal ini, instance berakhir karena alasan di luar kendali. AWS ParallelCluster
Lihat di
clustermgtdlog (/var/log/parallelcluster/clustermgtd) untuk kesalahan yang mirip dengan berikut ini:Node bootstrap error: Node %s failed during bootstrap when performing health check. -
Node komputasi gagal Slurm pendaftaran.
Pendaftaran
slurmddaemon dengan Slurm control daemon (slurmctld) gagal dan menyebabkan status node komputasi berubah ke status.INVALID_REGSalah dikonfigurasi Slurm node komputasi dapat menyebabkan kesalahan ini, seperti node terkomputasi yang dikonfigurasi dengan kesalahan spesifikasi node CustomSlurmSettingskomputasi.Lihat di file
slurmctldlog (/var/log/slurmctld.log) pada node kepala, atau lihat di fileslurmdlog (/var/log/slurmd.log) dari node komputasi gagal untuk kesalahan yang mirip dengan berikut ini:Setting node %s to INVAL with reason: ...
Cara men-debug mode yang dilindungi
Jika klaster Anda dalam status terlindungi, dan jika AWS ParallelCluster menghasilkan clustermgtd log dari HeadNode dan cloud-init-output log dari node komputasi yang bermasalah, maka Anda dapat memeriksa log untuk detail kesalahan. Untuk informasi selengkapnya tentang cara mengambil log, lihatMengambil dan melestarikan log.
clustermgtdlog (/var/log/parallelcluster/clustermgtd) pada simpul kepala
Pesan log menunjukkan partisi mana yang mengalami kegagalan bootstrap dan jumlah kegagalan bootstrap yang sesuai.
[slurm_plugin.clustermgtd:_handle_protected_mode_process] - INFO - Partitions bootstrap failure count: {'queue1': 2}, cluster will be set into protected mode if protected failure count reach threshold.
Di clustermgtd log, cari Found the following bootstrap failure nodes untuk menemukan node mana yang gagal di-bootstrap.
[slurm_plugin.clustermgtd:_handle_protected_mode_process] - WARNING - Found the following bootstrap failure nodes: (x2) ['queue1-st-c5large-1(192.168.110.155)', 'broken-st-c5large-2(192.168.65.215)']
Di clustermgtd log, cari Node bootstrap error untuk menemukan alasan kegagalan.
[slurm_plugin.clustermgtd:_is_node_bootstrap_failure] - WARNING - Node bootstrap error: Node broken-st-c5large-2(192.168.65.215) is currently in replacement and no backing instance
cloud-init-outputlog (/var/log/cloud-init-output.log) pada node komputasi
Setelah mendapatkan alamat IP pribadi node kegagalan bootstrap di clustermgtd log, Anda dapat menemukan log node komputasi yang sesuai dengan masuk ke node komputasi atau dengan mengikuti panduan Mengambil dan melestarikan log untuk mengambil log. Dalam kebanyakan kasus, /var/log/cloud-init-output log dari node bermasalah menunjukkan langkah yang menyebabkan kegagalan bootstrap node komputasi.