

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 常見錯誤和故障診斷
<a name="bestpractice7"></a>

中的錯誤 AWS Batch 通常發生在應用程式層級，或是由不符合特定任務需求的執行個體組態所造成。其他問題包括任務卡在 `RUNNABLE` 狀態，或運算環境卡在 `INVALID` 狀態。如需有關故障診斷任務卡在 `RUNNABLE` 狀態的詳細資訊，請參閱 [任務停滯在 `RUNNABLE` 狀態](job_stuck_in_runnable.md)。如需 `INVALID` 狀態運算環境疑難排解的資訊，請參閱 [`INVALID` 運算環境](invalid_compute_environment.md)。
+ **檢查 Amazon EC2 Spot vCPU 配額** – 驗證您目前的服務配額是否符合任務要求。例如，假設您目前的服務配額為 256 vCPUs，而任務需要 10，000 vCPUs。然後，服務配額不符合任務需求。如需詳細資訊和疑難排解指示，請參閱 [Amazon EC2 服務配額](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ec2-resource-limits.html)和[如何提高 Amazon EC2resources的服務配額？](https://aws.amazon.com/premiumsupport/knowledge-center/ec2-instance-limit/)。
+ **任務在應用程式執行之前失敗** – 有些任務可能因為`DockerTimeoutError`錯誤或`CannotPullContainerError`錯誤而失敗。如需疑難排解資訊，請參閱[如何解決 中的「DockerTimeoutError」錯誤 AWS Batch？](https://aws.amazon.com/premiumsupport/knowledge-center/batch-docker-timeout-error/)。
+ **IP 地址不足** – VPC 和子網路中的 IP 地址數目可以限制您可以建立的執行個體數目。使用無類別網域間路由 (CIDRs) 提供比執行工作負載所需的更多 IP 地址。如有必要，您也可以建置具有大型地址空間的專用 VPC。例如，您可以在 中建立具有多個 CIDRs VPC，`10.x.0.0/16`並在每個可用區域中建立具有 CIDR 為 的子網路`10.x.y.0/17`。在此範例中，*x* 介於 1-4 之間，*y* 為 0 或 128。此組態在每個子網路中提供 36，000 個 IP 地址。  
![](http://docs.aws.amazon.com/zh_tw/batch/latest/userguide/images/batch-best-practices-VPC_larges_scale-1.png)
+ **確認執行個體已向 Amazon EC2 註冊** – 如果您在 Amazon EC2 主控台中看到執行個體，但 Amazon ECS 叢集中沒有 Amazon Elastic Container Service 容器執行個體，Amazon ECS 代理程式可能不會安裝在 Amazon Machine Image (AMI) 上。您的 AMI 中的 Amazon ECS 代理程式、Amazon EC2 資料或啟動範本可能也未正確設定。若要隔離根本原因，請建立個別的 Amazon EC2 執行個體，或使用 SSH 連線到現有的執行個體。如需詳細資訊，請參閱 [Amazon ECS 容器代理程式組態](https://docs.aws.amazon.com/AmazonECS/latest/developerguide/ecs-agent-config.html)、[Amazon ECS 日誌檔案位置](https://docs.aws.amazon.com/AmazonECS/latest/developerguide/logs.html)和 [運算資源 AMIs](compute_resource_AMIs.md)。
+ **檢閱 AWS 儀表板** – 檢閱 AWS 儀表板，以確認預期的任務狀態和運算環境如預期擴展。您也可以在 CloudWatch 中檢閱任務日誌。
+ **確認您的執行個體已建立** – 如果執行個體已建立，表示您的運算環境會如預期擴展。如果未建立執行個體，請在運算環境中尋找要變更的關聯子網路。如需詳細資訊，請參閱[驗證 Auto Scaling 群組的擴展活動](https://docs.aws.amazon.com/autoscaling/ec2/userguide/as-verify-scaling-activity.html)。

  我們也建議您確認您的執行個體可以滿足您的相關任務需求。例如，任務可能需要 1 TiB 的記憶體，但運算環境使用的 C5 執行個體類型限制為 192 GB 的記憶體。
+ **驗證您的執行個體是否正由 請求 AWS Batch** – 檢查 Auto Scaling 群組歷史記錄，以確認您的執行個體正由 請求 AWS Batch。這表示 Amazon EC2 如何嘗試取得執行個體。如果您收到錯誤，指出 Amazon EC2 Spot 無法取得特定可用區域中的執行個體，這可能是因為可用區域不提供特定執行個體系列。
+ **確認執行個體已向 Amazon ECS 註冊** – 如果您在 Amazon EC2 主控台中看到執行個體，但 Amazon ECS 叢集中沒有 Amazon ECS 容器執行個體，Amazon ECS 代理程式可能不會安裝在 Amazon Machine Image (AMI) 上。此外，Amazon ECS 代理程式、AMI 中的 Amazon EC2 資料或啟動範本可能未正確設定。若要隔離根本原因，請建立個別的 Amazon EC2 執行個體，或使用 SSH 連線到現有的執行個體。如需詳細資訊，請參閱 [CloudWatch 代理程式組態檔案：日誌區段](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Agent-Configuration-File-Details.html#CloudWatch-Agent-Configuration-File-Logssection)、[Amazon ECS 日誌檔案位置](https://docs.aws.amazon.com/AmazonECS/latest/developerguide/logs.html)和 [運算資源 AMIs](compute_resource_AMIs.md)。
+ **開啟支援票證** – 如果您在進行故障診斷後仍遇到問題並擁有支援計畫，請開啟支援票證。在支援票證中，請務必包含有關問題、工作負載詳細資訊、組態和測試結果的資訊。如需詳細資訊，請參閱[比較 支援 計劃](https://aws.amazon.com/premiumsupport/plans/)。
+ **檢閱 AWS Batch 和 HPC 論壇** – 如需詳細資訊，請參閱 [AWS Batch](https://repost.aws/tags/TAAQ5TlH16Tc686CgyYUNX0g/aws-batch)和 [HPC](https://repost.aws/tags/TAjBvP4otfT3eX8PswbXo9AQ/high-performance-compute) 論壇。
+ **檢閱 AWS Batch 執行期監控儀表板** – 此儀表板使用無伺服器架構從 Amazon ECS AWS Batch和 Amazon EC2 擷取事件，以提供任務和執行個體的洞見。如需詳細資訊，請參閱[AWS Batch 執行期監控儀表板解決方案](https://github.com/aws-samples/aws-batch-runtime-monitoring)。