

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 使用 AWS Batch 整合對叢集中的問題進行故障診斷
<a name="troubleshooting-v3-batch"></a>

本節為具有 AWS Batch 排程器整合的叢集提供可能的疑難排解秘訣，特別是前端節點問題、運算問題、任務失敗和逾時錯誤。

**Topics**
+ [前端節點問題](#troubleshooting-v3-batch-head-node)
+ [運算問題](#troubleshooting-v3-batch-compute-nodes)
+ [任務失敗](#troubleshooting-v3-batch-job-fail)
+ [端點 URL 錯誤的連線逾時](#troubleshooting-v3-batch-connect-timeout)

## 前端節點問題
<a name="troubleshooting-v3-batch-head-node"></a>

您可以用與Slurm叢集相同的方式對前端節點設定問題進行故障診斷 (Slurm特定日誌除外）。如需有關這些問題的詳細資訊，請參閱[前端節點](troubleshooting-v3-scaling-issues.md#troubleshooting-v3-node-init.head-node)。

## 運算問題
<a name="troubleshooting-v3-batch-compute-nodes"></a>

AWS Batch 會管理服務的擴展和運算層面。如果您遇到運算相關問題，請參閱 AWS Batch [疑難排解](https://docs.aws.amazon.com/batch/latest/userguide/troubleshooting.html)文件以取得協助。

## 任務失敗
<a name="troubleshooting-v3-batch-job-fail"></a>

如果任務失敗，您可以執行 [`awsbout`](awsbatchcli.awsbout-v3.md)命令來擷取任務輸出。您也可以執行 [`awsbstat`](awsbatchcli.awsbstat-v3.md)命令，以取得 Amazon CloudWatch 所存放任務日誌的連結。

## 端點 URL 錯誤的連線逾時
<a name="troubleshooting-v3-batch-connect-timeout"></a>

如果多節點平行任務失敗並發生錯誤： `Connect timeout on endpoint URL`
+ 在`awsbout`輸出日誌中，檢查任務是否與輸出平行多節點： `Detected 3/3 compute nodes. Waiting for all compute nodes to start.`
+ 驗證運算節點子網路是否為公有。

 AWS Batch 使用 時，多節點平行任務不支援使用公有子網路 AWS ParallelCluster。為您的運算節點和任務使用私有子網路。如需詳細資訊，請參閱*AWS Batch 《 使用者指南*》中的[運算環境考量](https://docs.aws.amazon.com/batch/latest/userguide/multi-node-parallel-jobs.html#mnp-ce)。若要為您的運算節點設定私有子網路，請參閱 [AWS ParallelCluster 使用 AWS Batch 排程器](network-configuration-v3-batch.md)。