

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 클러스터 지표에 대한 Amazon CloudWatch 경보
<a name="cloudwatch-alarms-v3"></a>

AWS ParallelCluster 는 헤드 노드의 상태 및 리소스 사용률을 모니터링하도록 Amazon CloudWatch 경보를 구성합니다. 경보의 이름은 이며`{{cluster-name}}-HeadNode-{{metric}}`, 여기서 {{cluster-name}}은 클러스터의 이름이고 {{지표}}는 모니터링 중인 지표를 식별합니다.

탐색 창에서 **경보**를 선택하여 CloudWatch 콘솔에서 경보에 액세스합니다.

라는 복합 경보는 개별 헤드 노드 경보가 트리거될 때 `ALARM` 상태로 `{{cluster-name}}-HeadNode` 전환됩니다.

## 디스크 및 메모리 경보
<a name="cloudwatch-alarms-v3-disk-mem"></a>

 AWS ParallelCluster 버전 3.6.0부터 다음과 같은 CloudWatch 경보가 생성됩니다.
+ `{{cluster-name}}-HeadNode-Disk` - 루트 볼륨 `disk_used_percent` 지표를 모니터링합니다. 1분 동안 1개의 데이터 포인트에 대한 디스크 사용량이 90%를 초과하는 경우 `ALARM` 상태로 전환됩니다.
+ `{{cluster-name}}-HeadNode-Mem` - `mem_used_percent` 지표를 모니터링합니다. 1분 동안 1개의 데이터 포인트에 대한 메모리 사용량이 90%보다 클 때 `ALARM` 상태를 입력합니다.

자세한 설명은 [Amazon CloudWatch 사용자 가이드](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/metrics-collected-by-CloudWatch-agent.html)의 *CloudWatch 에이전트가 수집하는 지표*를 참조하세요.

## 상태 확인 및 CPU 경보
<a name="cloudwatch-alarms-v3-health-cpu"></a>

 AWS ParallelCluster 버전 3.8.0부터 다음과 같은 CloudWatch 경보가 생성됩니다.
+ `{{cluster-name}}-HeadNode-Health` - Amazon EC2 `StatusCheckFailed` 지표를 모니터링합니다. 1분 내에 1개의 데이터 포인트에 대해 값이 0보다 클 때 `ALARM` 상태를 입력합니다.
+ `{{cluster-name}}-HeadNode-Cpu` - Amazon EC2 `CPUUtilization` 지표를 모니터링합니다. 1분 동안 1개의 데이터 포인트에 대한 CPU 사용률이 90%보다 클 때 `ALARM` 상태가 됩니다.

## 클러스터 관리 데몬 하트비트 경보
<a name="cloudwatch-alarms-v3-clustermgtd"></a>

 AWS ParallelCluster 버전 3.15.0부터 Amazon CloudWatch 로깅이 활성화되고 Slurm 스케줄러가 사용되는 경우 다음 경보가 생성됩니다.
+ `{{cluster-name}}-HeadNode-ClustermgtdHeartbeat` - `ParallelCluster` 네임스페이스의 `ClustermgtdHeartbeat` 지표를 모니터링합니다. 1분 동안 10개의 연속 데이터 포인트에 대해 1개 미만의 하트비트가 수신되면 경보가 `ALARM` 상태로 전환됩니다. 누락된 데이터는 위반으로 처리됩니다.

**참고**  
모든 경보는 대칭적으로 복구됩니다. 경보를 트리거하는 동일한 데이터 포인트 및 평가 기간도 복구를 관리합니다. 예를 들어, 1개의 데이터 포인트가 있는 경보는 동일한 관찰 기간 내에 1개의 좋은 데이터 포인트 후에 복구됩니다. 마찬가지로 `ClustermgtdHeartbeat` 경보를 사용하려면 10개의 좋은 데이터 포인트(10분)가 연속으로 필요합니다`OK`.

**참고**  
AWS ParallelCluster 는 경보 작업을 구성하지 않습니다. 경보 전송과 같은 경보 작업을 설정하는 방법에 대한 자세한 내용은 [경보 작업](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html#alarms-and-actions)을 참조하세요. Amazon CloudWatch 경보에 대한 자세한 내용은 Amazon CloudWatch 사용 설명서**의 [Amazon CloudWatch 경보 사용](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html)을 참조하세요.  
 AWS ParallelCluster 버전 3.8.0 이상의 경우 클러스터 구성`false`에서 [`Monitoring`](Monitoring-v3.md) / /를 [`Alarms`](Monitoring-v3.md#yaml-Monitoring-Alarms) [`Enabled`](Monitoring-v3.md#yaml-Monitoring-Alarms-Enabled)로 설정하여 경보를 비활성화합니다.  
3.8.0 이전 AWS ParallelCluster 버전의 경우 클러스터 구성`false`에서 [`Monitoring`](Monitoring-v3.md) / / [`Dashboards`](Monitoring-v3.md#yaml-Monitoring-Dashboards) /를 [`CloudWatch`](Monitoring-v3.md#yaml-Monitoring-Dashboard-CloudWatch) [`Enabled`](Monitoring-v3.md#yaml-Monitoring-Dashboard-CloudWatch-Enabled)로 설정하여 경보를 비활성화합니다. 이 설정은 Amazon CloudWatch 대시보드도 비활성화합니다. 자세한 내용은 섹션을 참조[Amazon CloudWatch 대시보드](cloudwatch-dashboard-v3.md)하세요.