

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# AWS PCS 中的 EC2 執行個體會在重新啟動後終止並取代
<a name="troubleshooting_instance-terminated-after-reboot"></a>

**問題概觀**  
重新啟動運算節點群組中的 EC2 執行個體後， AWS PCS 會自動終止並取代執行個體。

**為什麼會發生這種情況**  
AWS PCS 不支援執行個體重新啟動。如果 EC2 執行個體重新啟動， AWS PCS 會將執行個體視為運作狀態不佳，並予以取代。如果 AWS PCS 持續終止並取代您的執行個體，可能是因為執行個體啟動後重新啟動。一些範例包括在 EC2 執行個體上透過自動化重新啟動 （例如修補後的自動重新啟動）、EC2 執行個體外部的自動化 （例如網路管理應用程式）、其他服務 AWS （例如 AWS Systems Manager)，或由人員手動重新啟動。

**處理方式**  
 您可以檢查 `slurmctld`或 `slurmd`日誌，查看您的執行個體是否已重新啟動。如需詳細資訊，請參閱[AWS PCS 中的排程器日誌](monitoring_scheduler-logs.md)及[使用 Amazon CloudWatch 監控 AWS PCS 執行個體](monitoring-cloudwatch_instances.md)。下列範例`slurmctld`日誌項目表示執行個體已重新啟動：

**Example**  

```
[2024-09-12T06:42:50.393+00:00] validate_node_specs: Node Login-1 unexpectedly rebooted boot_time=1726123354 last response=1726123285
```

**由於修補而重新啟動**  
套用修補程式後，通常需要重新啟動。請勿將修補程式直接套用至屬於 AWS PCS 運算節點群組的 EC2 執行個體。如果您必須修補 EC2 執行個體，您應該將修補程式套用至更新的 Amazon Machine Image (AMI)，並更新運算節點群組以使用更新的 AMI。 AWS PCS 為這些運算節點群組啟動的新 EC2 執行個體將使用更新的 （修補） AMI。如需詳細資訊，請參閱[AWS PCS 的自訂 Amazon Machine Image AMIs)](working-with_ami_custom.md)。