

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# AWS Batch 통합을 통한 클러스터 문제 해결
<a name="troubleshooting-v3-batch"></a>

이 섹션에서는 AWS Batch 스케줄러 통합, 특히 헤드 노드 문제, 컴퓨팅 문제, 작업 실패 및 제한 시간 오류가 있는 클러스터에 대해 가능한 문제 해결 팁을 제공합니다.

**Topics**
+ [헤드 노드 문제](#troubleshooting-v3-batch-head-node)
+ [컴퓨팅 문제](#troubleshooting-v3-batch-compute-nodes)
+ [작업 실패](#troubleshooting-v3-batch-job-fail)
+ [엔드포인트 URL의 연결 시간 초과 오류](#troubleshooting-v3-batch-connect-timeout)

## 헤드 노드 문제
<a name="troubleshooting-v3-batch-head-node"></a>

Slurm 클러스터와 동일한 방식으로 헤드 노드 설정 문제를 해결할 수 있습니다(Slurm 전용 로그 제외). 이러한 문제에 대한 자세한 내용은 [헤드 노드](troubleshooting-v3-scaling-issues.md#troubleshooting-v3-node-init.head-node) 섹션을 참조하세요.

## 컴퓨팅 문제
<a name="troubleshooting-v3-batch-compute-nodes"></a>

AWS Batch 는 서비스의 규모 조정 및 컴퓨팅 측면을 관리합니다. 컴퓨팅 관련 문제가 발생하는 경우 AWS Batch [문제 해결](https://docs.aws.amazon.com/batch/latest/userguide/troubleshooting.html) 설명서에서 도움말을 참조하세요.

## 작업 실패
<a name="troubleshooting-v3-batch-job-fail"></a>

작업이 실패할 경우 [`awsbout`](awsbatchcli.awsbout-v3.md) 명령을 실행하여 작업 출력을 검색할 수 있습니다. [`awsbstat`](awsbatchcli.awsbstat-v3.md) 명령을 실행하여 Amazon CloudWatch에 저장된 작업 로그로 연결되는 링크를 얻을 수도 있습니다.

## 엔드포인트 URL의 연결 시간 초과 오류
<a name="troubleshooting-v3-batch-connect-timeout"></a>

다중 노드 병렬 작업이 `Connect timeout on endpoint URL` 오류로 실패하는 경우
+ `awsbout` 출력 로그에서 작업이 `Detected 3/3 compute nodes. Waiting for all compute nodes to start.` 출력의 다중 노드 병렬인지 확인합니다.
+ 컴퓨팅 노드 서브넷이 퍼블릭인지 확인합니다.

다중 노드 병렬 작업은에서 사용 시 퍼블릭 서브넷 사용을 지원하지 않습니다 AWS Batch AWS ParallelCluster. 컴퓨팅 노드와 작업에는 프라이빗 서브넷을 사용하세요. 자세한 내용을 알아보려면AWS Batch 사용 설명서**의 [컴퓨팅 환경 고려 사항](https://docs.aws.amazon.com/batch/latest/userguide/multi-node-parallel-jobs.html#mnp-ce)을 참조하세요. 컴퓨팅 노드의 프라이빗 서브넷을 구성하려면 [AWS ParallelCluster AWS Batch 스케줄러 사용](network-configuration-v3-batch.md)을 참조하세요.