View a markdown version of this page

AWS PCS에서 Slurm 재부팅 문제 해결 - AWS PCS

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWS PCS에서 Slurm 재부팅 문제 해결

노드 재부팅 문제가 발생하면 먼저를 사용하여 노드 상태를 확인합니다scontrol show node nodename. 그런 다음 CloudWatch 로그에서 Slurm(slurmctld 및 slurmd) 및 시스템 로그를 모두 검사하여 잠재적 오류를 식별합니다.

기본 문제 해결을 위해 네트워크 연결을 확인하고, 보안 그룹 설정을 확인하고, 재부팅 후 필요한 모든 서비스가 실행 중인지 확인합니다. 기본 문제 해결 단계 후에도 문제가 지속되면 AWS Support에 문의하십시오. 지원 팀에 문의할 때 관련 로그 발췌문, 노드 상태 정보 및 재부팅 시도 타임라인을 제공하여 해결 프로세스를 가속화합니다.

추가 리소스