View a markdown version of this page

AWS PCS 中的 EC2 執行個體會在重新啟動後終止並取代 - AWS PCS

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

AWS PCS 中的 EC2 執行個體會在重新啟動後終止並取代

問題概觀

重新啟動運算節點群組中的 EC2 執行個體後, AWS PCS 會自動終止並取代執行個體。

為什麼會發生這種情況

AWS PCS 不支援執行個體重新啟動。如果 EC2 執行個體重新啟動, AWS PCS 會將執行個體視為運作狀態不佳,並予以取代。如果 AWS PCS 持續終止並取代您的執行個體,可能是因為執行個體啟動後重新啟動。一些範例包括在 EC2 執行個體上透過自動化重新啟動 (例如修補後的自動重新啟動)、EC2 執行個體外部的自動化 (例如網路管理應用程式)、其他服務 AWS (例如 AWS Systems Manager),或由人員手動重新啟動。

處理方式

您可以檢查 slurmctldslurmd日誌,查看您的執行個體是否已重新啟動。如需詳細資訊,請參閱AWS PCS 中的排程器日誌使用 Amazon CloudWatch 監控 AWS PCS 執行個體。下列範例slurmctld日誌項目表示執行個體已重新啟動:

範例
[2024-09-12T06:42:50.393+00:00] validate_node_specs: Node Login-1 unexpectedly rebooted boot_time=1726123354 last response=1726123285
由於修補而重新啟動

套用修補程式後,通常需要重新啟動。請勿將修補程式直接套用至屬於 AWS PCS 運算節點群組的 EC2 執行個體。如果您必須修補 EC2 執行個體,您應該將修補程式套用至更新的 Amazon Machine Image (AMI),並更新運算節點群組以使用更新的 AMI。 AWS PCS 為這些運算節點群組啟動的新 EC2 執行個體將使用更新的 (修補) AMI。如需詳細資訊,請參閱AWS PCS 的自訂 Amazon Machine Image AMIs)