

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 通过 AWS Batch 集成对集群中的问题进行故障排除
<a name="troubleshooting-v3-batch"></a>

本节为集成了 AWS Batch 调度程序的集群提供了可能的故障排除技巧，特别是头节点问题、计算问题、作业失败和超时错误。

**Topics**
+ [头节点问题](#troubleshooting-v3-batch-head-node)
+ [计算问题](#troubleshooting-v3-batch-compute-nodes)
+ [作业失败](#troubleshooting-v3-batch-job-fail)
+ [端点 URL 连接超时错误](#troubleshooting-v3-batch-connect-timeout)

## 头节点问题
<a name="troubleshooting-v3-batch-head-node"></a>

您可以像排查 Slurm 集群问题一样排查头节点设置问题（Slurm 特定日志除外）。有关这些问题的更多信息，请参阅[头节点](troubleshooting-v3-scaling-issues.md#troubleshooting-v3-node-init.head-node)。

## 计算问题
<a name="troubleshooting-v3-batch-compute-nodes"></a>

AWS Batch 管理服务的扩展和计算方面。如果您遇到与计算相关的问题，请参阅 AWS Batch [故障排除](https://docs.aws.amazon.com/batch/latest/userguide/troubleshooting.html)文档以获取帮助。

## 作业失败
<a name="troubleshooting-v3-batch-job-fail"></a>

如果作业失败，您可以运行 [`awsbout`](awsbatchcli.awsbout-v3.md) 命令来检索作业输出。您也可以运行[`awsbstat`](awsbatchcli.awsbstat-v3.md)命令以获取指向 Amazon 存储的任务日志的链接 CloudWatch。

## 端点 URL 连接超时错误
<a name="troubleshooting-v3-batch-connect-timeout"></a>

如果多节点并行作业失败并显示错误：`Connect timeout on endpoint URL`：
+ 在 `awsbout` 输出日志中，从输出中检查作业是否为多节点并行作业：`Detected 3/3 compute nodes. Waiting for all compute nodes to start.`
+ 验证计算节点子网是否为公有子网。

在中使用时，多节点 p AWS Batch arallel 作业不支持使用公有子网。 AWS ParallelCluster请为计算节点和作业使用私有子网。有关更多信息，请参阅 *AWS Batch User Guide* 中的 [Compute environment considerations](https://docs.aws.amazon.com/batch/latest/userguide/multi-node-parallel-jobs.html#mnp-ce)。要为您的计算节点配置私有子网，请参阅[AWS ParallelCluster 使用调 AWS Batch 度器](network-configuration-v3-batch.md)。