有關 AWS PCS 中 Slurm 版本的常見問題 - AWS PCS

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

有關 AWS PCS 中 Slurm 版本的常見問題

AWS PCS 維持對多個 Slurm 版本的支援。推出新的 Slurm 版本時, AWS PCS 會提供技術支援和安全修補程式,直到該版本達到 SchedMD. AWS PCS 的終止支援 (EOS) 為止,參考 Slurm 版本的 EOS 日期作為生命週期結束 (EOL),以符合 AWS 術語。

AWS PCS 支援 Slurm 版本多久?

AWS Slurm 版本的 PCS 支援符合 SchedMD 對主要版本的支援週期。 AWS PCS 支援目前版本和 2 個最新的先前主要版本。當 SchedMD 發行新的主要版本時, AWS PCS 會終止對最舊支援版本的支援。 AWS PCS 會盡快發行 Slurm 的新主要版本,但 SchedMD 的發行與其在 AWS PCS 中的可用性之間可能會有延遲。

我的叢集如何取得新的 Slurm 修補程式版本版本?

為了解決錯誤和安全性修正, AWS PCS 旨在自動將修補程式套用至在內部服務擁有帳戶中執行的叢集控制器。若要在 的 EC2 執行個體上安裝修補程式 AWS 帳戶,請更新運算節點群組的 Amazon Machine Image (AMI),並更新運算節點群組以使用更新的 AMI。如需詳細資訊,請參閱AWS PCS 的自訂 Amazon Machine Image AMIs)

注意

更新時無法使用 Slurm 控制器。執行中的任務不會受到影響。在叢集的控制器無法使用之前提交的任務會保留,直到控制器可用為止。

如何通知即將發生的 Slurm 版本 EOL 事件?

我們會在 EOL 日期前 6 個月傳送電子郵件訊息給您。我們每個月都會在 EOL 之前傳送電子郵件訊息給您,並在 EOL 日期前 1 週收到最終電子郵件訊息。在 EOL 日期之後,我們會每月傳送電子郵件訊息 12 個月給使用 EOL Slurm 版本執行 AWS PCS 叢集的客戶。如果該版本已識別安全漏洞,我們可能會暫停具有 EOL Slurm 版本的叢集。

如何判斷叢集使用的 Slurm 版本是否正在執行 EOL Slurm 版本?

我們會傳送電子郵件訊息給您,通知您有一個執行中叢集具有 EOL Slurm 版本。我們會發佈提醒, AWS Health Dashboard 其中包含具有 EOL Slurm 版本的叢集詳細資訊。您也可以使用 AWS PCS 主控台來識別具有 EOL Slurm 版本的叢集。

如果我的 Slurm 版本接近或超過 EOL,我需要做什麼?

使用較新支援的 Slurm 版本建立新的叢集,並在運算節點群組 AMIs 中更新 Slurm 版本。AMIs和執行中 EC2 執行個體中的 Slurm 版本不能超過叢集 Slurm 版本的 2 個版本。如需詳細資訊,請參閱AWS PCS 的自訂 Amazon Machine Image AMIs)

如果我未在 EOL 日期之前切換到較新版本的 Slurm,會發生什麼情況?

您無法使用 EOL Slurm 版本建立新的叢集。現有的叢集可以在沒有 AWS 支援的情況下運作長達 12 個月,而且不需要立即採取動作來維護其操作。在 EOL 日期之後,無法保證支援、安全性更新和可用性。基於安全考量,我們可能會暫停叢集。我們強烈建議您使用支援的 Slurm 版本來維護 AWS PCS 叢集的安全性和支援。

使用 EOL Slurm 版本操作叢集有哪些風險?

具有 EOL Slurm 版本的叢集具有顯著的安全性和操作風險。如果沒有 SchedMD 的主動監控,安全漏洞可能會保持未偵測到或未解決的狀態。如果發現重大漏洞,我們可能會立即暫停您的叢集。

當我的叢集暫停時,我的任務、叢集運算、儲存和聯網資源會發生什麼情況?

AWS PCS 管理的所有資源都會終止。這包括 Slurm 控制器、運算節點群組和 EC2 執行個體。在運算執行個體上執行的任何任務都會立即終止,且叢集會進入暫停狀態。客戶管理的資源,例如外部檔案系統,保持不變。您可以使用 AWS PCS 主控台和 API 動作來存取叢集的組態。

我可以重新啟動暫停的叢集以繼續其剩餘的任務嗎?

否,您無法重新啟動暫停的叢集。您可以使用暫停叢集的組態,建立具有支援 Slurm 版本的新叢集。如果您將剩餘的任務儲存在外部檔案系統中,則可以執行這些任務。

我可以請求超過 12 個月寬限期的延長嗎?

否,您無法請求擴充功能來執行超過 12 個月寬限期的叢集。我們提供較長的時間,協助您切換到支援的 Slurm 版本。為了避免中斷叢集操作,建議您在 Slurm 版本達到 EOL 之前進行切換。