기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
AWS PCS에서 Slurm 재부팅 문제 해결
노드 재부팅 문제가 발생하면 먼저를 사용하여 노드 상태를 확인합니다scontrol show node . 그런 다음 CloudWatch 로그에서 Slurm(slurmctld 및 slurmd) 및 시스템 로그를 모두 검사하여 잠재적 오류를 식별합니다.nodename
기본 문제 해결을 위해 네트워크 연결을 확인하고, 보안 그룹 설정을 확인하고, 재부팅 후 필요한 모든 서비스가 실행 중인지 확인합니다. 기본 문제 해결 단계 후에도 문제가 지속되면 AWS Support에 문의하십시오. 지원 팀에 문의할 때 관련 로그 발췌문, 노드 상태 정보 및 재부팅 시도 타임라인을 제공하여 해결 프로세스를 가속화합니다.
추가 리소스
-
CloudWatch를 사용하여 AWS PCS 인스턴스를 모니터링하려면 Amazon CloudWatch를 사용하여 AWS PCS 인스턴스 모니터링을 참조하세요.
-
일반적인 문제 해결은 섹션을 참조하세요AWS 병렬 컴퓨팅 서비스의 문제 해결.
-
Slurm 설명서는 Slurm 문제 해결 안내서를 참조하세요
.