本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
建議的彈性組態
深層運作狀態檢查啟用時,每當新的執行個體新增至 HyperPod 叢集時 (無論是在建立叢集期間或透過自動節點取代),新的執行個體都會經歷大約幾個小時的深層運作狀態檢查程序 (執行個體層級壓力測試)。以下是建議的彈性組態組合,取決於可能的案例。
-
案例:當叢集內有其他備用節點做為備份資源時 (不使用完整容量),或者如果您可以等待大約 2 小時,讓深層運作狀態檢查程序取得較不容易出錯的執行個體。
建議:在整個叢集生命週期中啟用深層運作狀態檢查組態。節點自動復原組態預設為啟用。
-
案例:當您沒有其他備份節點時 (容量完全用於某些訓練負載)。您想要盡快取得替換節點,以繼續訓練任務。
建議:在叢集建立期間啟用深層運作狀態檢查,然後在叢集建立之後關閉深層運作狀態檢查組態。節點自動復原組態預設為啟用。
-
案例:當您沒有額外的備份節點,而且您不想等待大約 2 小時的深度運作狀態檢查程序時 (小型叢集)。
建議:停用整個叢集生命週期的深層運作狀態檢查組態。節點自動復原組態預設為啟用。
如果您想要立即從失敗中繼續訓練任務,請確定叢集中有額外的備用節點做為備份資源。