기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
클러스터 경보
최적의 성능을 보장하려면 클러스터 상태 모니터링이 필수적입니다.AWS ParallelCluster를 사용하면 클러스터 헤드 노드에 대한 여러 CloudWatch 기반 경보를 모니터링할 수 있습니다.
이 섹션에서는 명명 규칙, 경보를 트리거하는 특정 조건, 제안된 문제 해결 단계를 포함하여 각 유형의 헤드 노드 클러스터 경보에 대한 세부 정보를 제공합니다.
클러스터 경보의 명명 규칙은 CLUSTER_NAME-COMPONENT-METRIC입니다. 예를 들어, mycluster-HeadNode-Cpu입니다.
-
CLUSTER_NAME-HeadNode: 헤드 노드의 전체 상태를 나타냅니다. 아래 경보 중 하나 이상이 있으면 빨간색입니다. -
CLUSTER_NAME-HeadNode-Health: Amazon EC2 상태 확인 실패가 하나 이상 있는 경우 빨간색입니다. 경보가 발생하는 경우 상태 확인이 실패한 인스턴스 문제 해결을 살펴보는 것이 좋습니다. -
CLUSTER_NAME-HeadNode-Cpu: CPU 사용률이 90%를 초과하는 경우 빨간색입니다. 경보가 발생하는 경우ps -aux --sort=-%cpu | head -n 10을 사용하여 CPU를 가장 많이 소비하는 프로세스를 확인합니다. -
CLUSTER_NAME-HeadNode-Mem: 메모리 사용률이 90%보다 큰 경우 빨간색입니다. 경보가 발생하는 경우ps -aux --sort=-%mem | head -n 10을 사용하여 메모리를 가장 많이 소비하는 프로세스를 확인합니다. -
CLUSTER_NAME-HeadNode-Disk: 경로 /에서 점유 디스크 공간이 90%보다 큰 경우 빨간색입니다. 경보가 발생하는 경우 대부분의 스페이스를 사용하는 폴더를du -h --max-depth=2 / 2> /dev/null | sort -hr로 확인합니다.