使用AWS Batch整合對叢集中的問題進行故障診斷 - AWS ParallelCluster

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用AWS Batch整合對叢集中的問題進行故障診斷

本節為具有AWS Batch排程器整合的叢集提供可能的疑難排解秘訣,特別是前端節點問題、運算問題、任務失敗和逾時錯誤。

前端節點問題

您可以用與Slurm叢集相同的方式對前端節點設定問題進行故障診斷 (Slurm特定日誌除外)。如需有關這些問題的詳細資訊,請參閱前端節點

運算問題

AWS Batch管理服務的擴展和運算層面。如果您遇到運算相關問題,請參閱AWS Batch疑難排解文件以取得協助。

任務失敗

如果任務失敗,您可以執行 awsbout命令來擷取任務輸出。您也可以執行 awsbstat命令,以取得 Amazon CloudWatch 存放之任務日誌的連結。

端點 URL 錯誤的連線逾時

如果多節點平行任務失敗並發生錯誤:Connect timeout on endpoint URL

  • awsbout輸出日誌中,檢查任務是否在輸出中為多節點平行: Detected 3/3 compute nodes. Waiting for all compute nodes to start.

  • 驗證運算節點子網路是否為公有。

AWS Batch使用 時,多節點平行任務不支援使用公有子網路AWS ParallelCluster。為您的運算節點和任務使用私有子網路。如需詳細資訊,請參閱AWS Batch《 使用者指南》中的運算環境考量。若要為運算節點設定私有子網路,請參閱 AWS ParallelCluster使用AWS Batch排程器