本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
案例 3:執行多節點任務的 Spot 執行個體遭到中斷
任務失敗,狀態碼為 NODE_FAIL,且任務會重新排入佇列 (除非在提交任務時--no-requeue指定)。如果節點是靜態節點,則會予以取代。如果節點是動態節點,則會終止節點並重設。執行已終止任務的其他節點可能會配置給其他待定任務,或在設定的 SlurmSettings / ScaledownIdletime 時間過後縮減規模。
本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
任務失敗,狀態碼為 NODE_FAIL,且任務會重新排入佇列 (除非在提交任務時--no-requeue指定)。如果節點是靜態節點,則會予以取代。如果節點是動態節點,則會終止節點並重設。執行已終止任務的其他節點可能會配置給其他待定任務,或在設定的 SlurmSettings / ScaledownIdletime 時間過後縮減規模。