클러스터 경보

최적의 성능을 보장하려면 클러스터 상태 모니터링이 필수적입니다. AWS ParallelCluster 를 사용하면 클러스터 헤드 노드에 대한 여러 CloudWatch 기반 경보를 모니터링할 수 있습니다.

이 섹션에서는 명명 규칙, 경보를 트리거하는 특정 조건, 제안된 문제 해결 단계를 포함하여 각 유형의 헤드 노드 클러스터 경보에 대한 세부 정보를 제공합니다.

클러스터 경보의 명명 규칙은 CLUSTER_NAME-COMPONENT-METRIC입니다. 예를 들어, mycluster-HeadNode-Cpu입니다.

CLUSTER_NAME-HeadNode: 헤드 노드의 전체 상태를 나타냅니다. 아래 경보 중 하나 이상이 있으면 빨간색입니다.
CLUSTER_NAME-HeadNode-Health: Amazon EC2 상태 확인 실패가 하나 이상 있는 경우 빨간색입니다. 경보가 발생하는 경우 상태 확인이 실패한 인스턴스 문제 해결을 살펴보는 것이 좋습니다.
CLUSTER_NAME-HeadNode-Cpu: CPU 사용률이 90%를 초과하는 경우 빨간색입니다. 경보가 발생하는 경우 ps -aux --sort=-%cpu | head -n 10을 사용하여 CPU를 가장 많이 소비하는 프로세스를 확인합니다.
CLUSTER_NAME-HeadNode-Mem: 메모리 사용률이 90%보다 큰 경우 빨간색입니다. 경보가 발생하는 경우 ps -aux --sort=-%mem | head -n 10을 사용하여 메모리를 가장 많이 소비하는 프로세스를 확인합니다.
CLUSTER_NAME-HeadNode-Disk: 경로 /에서 점유 디스크 공간이 90%보다 큰 경우 빨간색입니다. 경보가 발생하는 경우 대부분의 스페이스를 사용하는 폴더를 du -h --max-depth=2 / 2> /dev/null | sort -hr로 확인합니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

사용자 지정 Slurm 구성에서 오류가 표시되는 경우

오류 또는 실패를 유발하는 OS 구성 변경 사항 해결