NVIDIA GPU 지표 AWS Trainium 및 AWS Inferentia의 AWS Neuron 지표 AWS Elastic Fabric Adapter(EFA) 지표 Amazon SageMaker AI HyperPod 지표 Amazon EBS NVMe 드라이버 지표

Amazon EKS 및 향상된 관찰성 지표를 갖춘 Kubernetes Container Insights

아래 표에는 향상된 관찰성을 갖춘 Container Insights가 Amazon EKS 및 쿠버네티스용으로 수집하는 지표 및 측정 기준이 나와 있습니다. 이러한 지표는 ContainerInsights 네임스페이스에 있습니다. 자세한 내용은 Metrics 섹션을 참조하세요.

콘솔에 향상된 관찰성을 갖춘 Container Insights 지표가 표시되지 않는 경우, 향상된 관찰성을 갖춘 Container Insights 설정을 완료했는지 확인합니다. 향상된 관찰성을 갖춘 Container Insights 설정이 완료되기 전에는 지표가 표시되지 않습니다. 자세한 내용은 Container Insights 설정 섹션을 참조하세요.

Amazon EKS 추가 기능 버전 1.5.0 이상 또는 CloudWatch 에이전트 버전 1.300035.0을 사용 중인 경우 다음 표에 나열된 대부분의 지표가 Linux와 Windows 노드 모두에 대해 수집됩니다. 표의 지표 이름 열을 참조하여 Windows에서 수집되지 않는 지표를 확인하세요.

클러스터 및 서비스 수준에서 집계된 지표를 제공하는 이전 버전의 Container Insights를 사용할 경우, 지표에 대한 요금이 사용자 지정 지표로 청구됩니다. Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 사용하면 Container Insights 지표는 저장된 지표나 수집된 로그별로 요금이 부과되는 대신 관찰당 요금이 부과됩니다. CloudWatch 요금에 대한 자세한 내용은 Amazon CloudWatch 요금을 참조하세요.

참고

Windows에서는 호스트 프로세스 컨테이너에 대해 pod_network_rx_bytes 및 pod_network_tx_bytes 등의 네트워크 지표는 수집되지 않습니다.

RedHat OpenShift onAWS (ROSA) 클러스터에서는 node_diskio_io_serviced_total 및 node_diskio_io_service_bytes_total과 같은 디스크 입출력 지표가 수집되지 않습니다.

지표 이름	측정 기준	설명
`cluster_failed_node_count`	`ClusterName`	클러스터의 실패한 작업자 노드의 숫자입니다. ‘노드 조건’ 문제를 겪고 있는 경우 노드가 실패한 것으로 간주됩니다. 자세한 내용은 Kubernetes 설명서에서 조건을 참조하세요.
`cluster_node_count`	`ClusterName`	클러스터의 작업자 노드의 총 숫자입니다.
`namespace_number_of_running_pods`	`Namespace` `ClusterName` `ClusterName`	사용 중인 측정기준에서 지정한 리소스의 네임스페이스당 실행 중인 Pod 숫자입니다.
`node_cpu_limit`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	클러스터에서 단일 노드에 할당할 수 있는 최대 CPU 단위 숫자입니다.
`node_cpu_reserved_capacity`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	kubelet, kube-proxy, Docker 등 노드 구성 요소에 예약된 CPU 단위의 비율입니다. 공식: `node_cpu_request / node_cpu_limit` 참고 `node_cpu_request`는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 섹션을 참조하세요.
`node_cpu_usage_total`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	클러스터의 노드에서 사용 중인 CPU 단위의 숫자입니다.
`node_cpu_utilization`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	클러스터의 노드에서 사용 중인 CPU 단위의 총 백분율입니다. 공식: `node_cpu_usage_total / node_cpu_limit`
`node_filesystem_utilization`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	클러스터에서 노드에 사용하는 파일 시스템 용량의 총 백분율입니다. 공식: `node_filesystem_usage / node_filesystem_capacity` 참고 `node_filesystem_usage` 및 `node_filesystem_capacity`는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 섹션을 참조하세요.
`node_memory_limit`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	클러스터에서 단일 노드로 할당될 수 있는 최대 메모리의 양(바이트)입니다.
`node_filesystem_inodes` Windows에서는 제공되지 않습니다.	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	노드의 총 아이노드(사용 및 미사용) 수입니다.
`node_filesystem_inodes_free` Windows에서는 제공되지 않습니다.	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	노드의 미사용 아이노드 수입니다.
`node_gpu_limit`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	노드에서 사용 가능한 총 GPU 수.
`node_gpu_usage_total`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	노드에서 실행 중인 포드가 사용하는 GPU 수.
`node_gpu_reserved_capacity`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`
`node_memory_reserved_capacity`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	클러스터의 노드에서 현재 사용 중인 메모리의 비율입니다. 공식: `node_memory_request / node_memory_limit` 참고 `node_memory_request`는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 섹션을 참조하세요.
`node_memory_utilization`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	한 개 또는 여러 개의 노드에서 현재 사용 중인 메모리의 비율입니다. 노드 메모리 사용량을 노드 메모리 제한으로 나눈 백분율입니다. 공식: `node_memory_working_set / node_memory_limit`입니다.
`node_memory_working_set`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	클러스터의 노드 작업 세트에서 사용하는 메모리의 양(바이트)입니다.
`node_network_total_bytes`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	클러스터에서 노드당 네트워크를 통해 전송 및 수신된 초당 바이트의 합계 수치입니다. 공식: `node_network_rx_bytes + node_network_tx_bytes` 참고 `node_network_rx_bytes` 및 `node_network_tx_bytes`는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 섹션을 참조하세요.
`node_number_of_running_containers`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	클러스터에서 노드당 실행 중인 컨테이너의 숫자입니다.
`node_number_of_running_pods`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	클러스터에서 노드당 실행 중인 Pod 숫자입니다.
`node_status_allocatable_pods`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	할당 가능한 리소스를 기준으로 노드에 할당할 수 있는 포드 수이며 이는 시스템 대몬(daemon) 예약 및 하드 제거 임곗값을 고려한 후 노드 용량의 나머지 부분으로 정의됩니다.
`node_status_capacity_pods`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	용량에 따라 노드에 할당할 수 있는 포드 수입니다.
`node_status_condition_ready`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	노드 상태 조건 `Ready`가 Amazon EC2 노드에 대해 참인지 여부를 나타냅니다.
`node_status_condition_memory_pressure`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	노드 상태 조건 `MemoryPressure`이 참인지 여부를 나타냅니다.
`node_status_condition_pid_pressure`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	노드 상태 조건 `PIDPressure`이 참인지 여부를 나타냅니다.
`node_status_condition_disk_pressure`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	노드 상태 조건 `OutOfDisk`이 참인지 여부를 나타냅니다.
`node_status_condition_unknown`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	노드 상태 조건 중 알 수 없는 상태가 있는지 여부를 나타냅니다.
`node_interface_network_rx_dropped`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	노드의 네트워크 인터페이스에서 수신한 후 삭제한 패킷 수입니다.
`node_interface_network_tx_dropped`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	전송될 예정이었으나 노드의 네트워크 인터페이스에서 삭제된 패킷 수입니다.
`node_diskio_io_service_bytes_total` Windows 또는 ROSA 클러스터에서는 사용할 수 없습니다.	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	노드의 모든 I/O 작업에서 전송된 총 바이트 수입니다.
`node_diskio_io_serviced_total` Windows 또는 ROSA 클러스터에서는 사용할 수 없습니다.	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	노드의 총 I/O 작업 횟수입니다.
`pod_cpu_reserved_capacity`	`PodName`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `Service`	클러스터에서 Pod별로 예약된 CPU 용량입니다. 공식: `pod_cpu_request / node_cpu_limit` 참고 `pod_cpu_request`는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 섹션을 참조하세요.
`pod_cpu_utilization`	`PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Pod에서 사용 중인 CPU 단위의 비율입니다. 공식: `pod_cpu_usage_total / node_cpu_limit`
`pod_cpu_utilization_over_pod_limit`	`PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	포드 제한을 기준으로 포드에서 사용 중인 CPU 단위의 백분율입니다. 공식: `pod_cpu_usage_total / pod_cpu_limit`
`pod_memory_reserved_capacity`	`PodName`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `Service`	포드에 예약된 메모리의 비율입니다. 공식: `pod_memory_request / node_memory_limit` 참고 `pod_memory_request`는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 섹션을 참조하세요.
`pod_memory_utilization`	`PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	한 개 또는 여러 개의 Pod에서 현재 사용 중인 메모리의 비율입니다. 공식: `pod_memory_working_set / node_memory_limit`
`pod_memory_utilization_over_pod_limit`	`PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	포드 제한을 기준으로 포드에서 사용 중인 메모리의 백분율입니다. 포드의 컨테이너에 메모리 제한이 정의되지 않은 경우 이 지표는 표시되지 않습니다. 공식: `pod_memory_working_set / pod_memory_limit`
`pod_network_rx_bytes`	`PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Pod에서 네트워크를 통해 수신 중인 초당 바이트 수입니다. 공식: `sum(pod_interface_network_rx_bytes)` 참고 `pod_interface_network_rx_bytes`는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 섹션을 참조하세요.
`pod_network_tx_bytes`	`PodName`, `Namespace`, `ClusterName` `Namespace,` `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Pod에서 네트워크를 통해 전송 중인 초당 바이트 수입니다. 공식: `sum(pod_interface_network_tx_bytes)` 참고 `pod_interface_network_tx_bytes`는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 섹션을 참조하세요.
`pod_cpu_request`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	포드에 대한 CPU 요청입니다. 공식: `sum(container_cpu_request)` 참고 `pod_cpu_request`는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 섹션을 참조하세요.
`pod_memory_request`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	포드에 대한 메모리 요청량입니다. 공식: `sum(container_memory_request)` 참고 `pod_memory_request`는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 섹션을 참조하세요.
`pod_cpu_limit`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	포드의 컨테이너에 대해 정의된 CPU 한도입니다. 포드의 컨테이너에 CPU 제한이 정의되지 않은 경우 이 지표는 표시되지 않습니다. 공식: `sum(container_cpu_limit)` 참고 `pod_cpu_limit`는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 섹션을 참조하세요.
`pod_memory_limit`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	포드의 컨테이너에 대해 정의된 메모리 한도입니다. 포드의 컨테이너에 메모리 제한이 정의되지 않은 경우 이 지표는 표시되지 않습니다. 공식: `sum(container_memory_limit)` 참고 `pod_cpu_limit`는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 섹션을 참조하세요.
`pod_status_failed`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	포드의 모든 컨테이너가 종료되었으며, 하나 이상의 컨테이너가 0이 아닌 상태로 종료되었거나 시스템에 의해 종료되었음을 나타냅니다.
`pod_status_ready`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	포드의 모든 컨테이너가 `ContainerReady` 조건에 도달하여 준비가 완료되었음을 나타냅니다.
`pod_status_running`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	포드의 모든 컨테이너가 실행 중임을 나타냅니다.
`pod_status_scheduled`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	포드가 노드에 예약되었음을 나타냅니다.
`pod_status_unknown`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	포드의 상태를 가져올 수 없음을 나타냅니다.
`pod_status_pending`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	클러스터에서 포드를 수락했지만 하나 이상의 컨테이너가 아직 준비되지 않았음을 나타냅니다.
`pod_status_succeeded`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	포드의 모든 컨테이너가 성공적으로 종료되었으며 다시 시작되지 않음을 나타냅니다.
`pod_number_of_containers`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	포드 사양에 정의된 컨테이너 수를 보고합니다.
`pod_number_of_running_containers`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	현재 `Running` 상태에 있는 포드 내 컨테이너 수를 보고합니다.
`pod_container_status_terminated`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	포드에서 `Terminated` 상태에 있는 컨테이너 수를 보고합니다.
`pod_container_status_running`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	포드에서 `Running` 상태에 있는 컨테이너 수를 보고합니다.
`pod_container_status_waiting`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	포드에서 `Waiting` 상태에 있는 컨테이너 수를 보고합니다.
`pod_container_status_waiting_reason_crash_loop_back_off`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	컨테이너가 반복적으로 시작에 실패하는 `CrashLoopBackOff` 오류로 인해 보류 중인 포드의 컨테이너 수를 보고합니다.
`pod_container_status_waiting_reason_create_container_config_error`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	사유 `CreateContainerConfigError`로 보류 중인 포드의 컨테이너 수를 보고합니다. 이는 컨테이너 구성을 생성하는 동안 오류가 발생했기 때문입니다.
`pod_container_status_waiting_reason_create_container_error`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	컨테이너 생성 중 발생한 오류 때문에 사유 `CreateContainerError`로 보류 중인 포드의 컨테이너 수를 보고합니다.
`pod_container_status_waiting_reason_image_pull_error`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	`ErrImagePull`, `ImagePullBackOff` 또는 `InvalidImageName` 때문에 보류 중인 포드의 컨테이너 수를 보고합니다. 이러한 상황은 컨테이너 이미지를 가져오는 중 오류로 인해 발생합니다.
`pod_container_status_waiting_reason_start_error`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	컨테이너 시작 중 발생한 오류 때문에 사유 `StartError`로 보류 중인 포드의 컨테이너 수를 보고합니다.
`pod_container_status_terminated_reason_oom_killed`	`ContainerName`, `FullPodName`, `PodName`, `Namespace`, `ClusterName` `ContainerName`, `PodName`, `Namespace`, `ClusterName` `ClusterName`	메모리 제한을 초과하여 포드가 종료되었음을 나타냅니다. 이 지표 는이 문제가 발생한 경우에만 표시됩니다.
`pod_interface_network_rx_dropped`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	포드의 네트워크 인터페이스에서 수신된 후 삭제된 패킷 수입니다.
`pod_interface_network_tx_dropped`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	전송될 예정이었으나 포드에서 삭제된 패킷 수입니다.
`pod_memory_working_set`	`ClusterName` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	포드에서 현재 사용 중인 메모리(바이트).
`pod_cpu_usage_total`	`ClusterName` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	포드에서 사용되는 CPU 단위 수.
`container_cpu_utilization`	`ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`	컨테이너에서 사용 중인 CPU 단위의 비율입니다. 공식: `container_cpu_usage_total / node_cpu_limit` 참고 `container_cpu_utilization`는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 섹션을 참조하세요.
`container_cpu_utilization_over_container_limit`	`ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`	컨테이너 제한을 기준으로 컨테이너에서 사용 중인 CPU 단위의 비율입니다. 컨테이너에 CPU 제한이 정의되지 않은 경우 이 지표는 표시되지 않습니다. 공식: `container_cpu_usage_total / container_cpu_limit` 참고 `container_cpu_utilization_over_container_limit`는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 섹션을 참조하세요.
`container_memory_utilization`	`ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`	컨테이너에서 사용 중인 메모리 단위의 비율입니다. 공식: `container_memory_working_set / node_memory_limit` 참고 `container_memory_utilization`는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 섹션을 참조하세요.
`container_memory_utilization_over_container_limit`	`ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`	컨테이너 제한을 기준으로 컨테이너에서 사용 중인 메모리 단위의 비율입니다. 컨테이너에 메모리 제한이 정의되지 않은 경우 이 지표는 표시되지 않습니다. 공식: `container_memory_working_set / container_memory_limit` 참고 `container_memory_utilization_over_container_limit`는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 섹션을 참조하세요.
`container_memory_failures_total` Windows에서는 제공되지 않습니다.	`ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`	컨테이너에서 발생한 메모리 할당 실패 횟수입니다.
`pod_number_of_container_restarts`	PodName, `Namespace`, `ClusterName`	Pod의 컨테이너 재시작 총 횟수입니다.
`service_number_of_running_pods`	서비스, `Namespace`, `ClusterName` `ClusterName`	클러스터에서 단일 또는 복수의 서비스를 실행하는 Pod의 숫자입니다.
`replicas_desired`	`ClusterName` `PodName`, `Namespace`, `ClusterName`	워크로드 사양에 정의된 워크로드에 필요한 포드 수입니다.
`replicas_ready`	`ClusterName` `PodName`, `Namespace`, `ClusterName`	준비 상태에 도달한 워크로드의 포드 수입니다.
`status_replicas_available`	`ClusterName` `PodName`, `Namespace`, `ClusterName`	워크로드에 사용할 수 있는 포드 수입니다. 워크로드 사양에 정의된 대로 `minReadySeconds` 준비가 되면 포드를 사용할 수 있습니다.
`status_replicas_unavailable`	`ClusterName` `PodName`, `Namespace`, `ClusterName`	사용할 수 없는 워크로드의 포드 수입니다. 워크로드 사양에 정의된 대로 `minReadySeconds` 준비가 되면 포드를 사용할 수 있습니다. 이 기준을 충족하지 않으면 포드를 사용할 수 없습니다.
`apiserver_storage_objects`	`ClusterName` `ClusterName`, `resource`	마지막 확인 당시 etcd에 저장된 객체 수입니다.
`apiserver_storage_db_total_size_in_bytes`	`ClusterName` `ClusterName`, `endpoint`	물리적으로 할당된 스토리지 데이터베이스 파일의 총 크기(바이트)입니다. 이 지표는 실험용이며 Kubernetes의 향후 릴리스에서 변경될 수도 있습니다. 단위: 바이트 유용한 통계: 합계, 평균, 최소, 최대
`apiserver_request_total`	`ClusterName` `ClusterName`, `code`, `verb`	Kubernetes API 서버에 대한 총 API 요청 수입니다.
`apiserver_request_duration_seconds`	`ClusterName` `ClusterName`, `verb`	Kubernetes API 서버에 대한 API 요청의 응답 지연 시간입니다.
`apiserver_admission_controller_admission_duration_seconds`	`ClusterName` `ClusterName`, `operation`	승인 컨트롤러 지연 시간(초)입니다. 승인 컨트롤러는 Kubernetes API 서버에 대한 요청을 가로채는 코드입니다.
`rest_client_request_duration_seconds`	`ClusterName` `ClusterName`, `operation`	Kubernetes API 서버를 호출하는 클라이언트가 경험한 응답 지연 시간입니다. 이 지표는 실험용이며 Kubernetes의 향후 릴리스에서 변경될 수 있습니다.
`rest_client_requests_total`	`ClusterName` `ClusterName`, `code`, `method`	클라이언트가 Kubernetes API 서버에 요청한 총 API 요청 수입니다. 이 지표는 실험용이며 Kubernetes의 향후 릴리스에서 변경될 수 있습니다.
`etcd_request_duration_seconds`	`ClusterName` `ClusterName`, `operation`	Etcd에 대한 API 호출의 응답 지연 시간입니다. 이 지표는 실험용이며 Kubernetes의 향후 릴리스에서 변경될 수 있습니다.
`apiserver_storage_size_bytes`	`ClusterName` `ClusterName`, `endpoint`	물리적으로 할당된 스토리지 데이터베이스 파일의 크기(바이트)입니다. 이 지표는 실험용이며 Kubernetes의 향후 릴리스에서 변경될 수 있습니다.
`apiserver_longrunning_requests`	`ClusterName` `ClusterName`, `resource`	Kubernetes API 서버에 대한 활성 장기 실행 요청 수입니다.
`apiserver_current_inflight_requests`	`ClusterName` `ClusterName`, `request_kind`	Kubernetes API 서버에서 처리 중인 요청 수입니다.
`apiserver_admission_webhook_admission_duration_seconds`	`ClusterName` `ClusterName`, `name`	승인 웹후크 지연 시간(초)입니다. 승인 웹후크는 승인 요청을 수신하고 이를 이용해 무언가를 수행하는 HTTP 콜백입니다.
`apiserver_admission_step_admission_duration_seconds`	`ClusterName` `ClusterName`, `operation`	승인 하위 단계 지연 시간(초)입니다.
`apiserver_requested_deprecated_apis`	`ClusterName` `ClusterName`, `group`	Kubernetes API 서버에서 더 이상 사용되지 않는 API에 대한 요청 수입니다.
`apiserver_request_total_5xx`	`ClusterName` `ClusterName`, `code`, `verb`	Kubernetes API 서버에 대한 요청 중 5XX HTTP 응답 코드로 응답한 요청 수입니다.
`apiserver_storage_list_duration_seconds`	`ClusterName` `ClusterName`, `resource`	Etc의 객체를 나열하는 응답 지연 시간. 이 지표는 실험용이며 Kubernetes의 향후 릴리스에서 변경될 수 있습니다.
`apiserver_flowcontrol_request_concurrency_limit`	`ClusterName` `ClusterName`, `priority_level`	API 우선순위 및 공정성 하위 시스템에서 현재 실행 중인 요청이 사용하는 스레드 수.
`apiserver_flowcontrol_rejected_requests_total`	`ClusterName` `ClusterName`, `reason`	API 우선순위 및 공정성 하위 시스템에서 거부한 요청 수입니다. 이 지표는 실험용이며 Kubernetes의 향후 릴리스에서 변경될 수 있습니다.
`apiserver_current_inqueue_requests`	`ClusterName` `ClusterName`, `request_kind`	Kubernetes API 서버에서 대기열에 있는 요청 수입니다. 이 지표는 실험용이며 Kubernetes의 향후 릴리스에서 변경될 수 있습니다.

NVIDIA GPU 지표

Amazon EKS의 향상된 관찰성을 사용하여 CloudWatch 에이전트 버전 1.300034.0부터 Container Insights는 기본적으로 EKS 워크로드에서 NVIDIA GPU 지표를 수집합니다. CloudWatch 에이전트를 설치할 때는 CloudWatch Observability EKS 추가 기능 버전 v1.3.0-eksbuild.1 이상을 사용해야 합니다. 자세한 내용은 Amazon CloudWatch Observability EKS 추가 기능 또는 헬름 차트를 사용하여 CloudWatch 에이전트 설치 섹션을 참조하세요. 이렇게 수집된 NVIDIA GPU 지표는 이 섹션의 표에 나열되어 있습니다.

Container Insights로 NVIDIA GPU 지표를 수집하려면 다음 사전 요구 사항을 충족해야 합니다.

Amazon CloudWatch Observability EKS 추가 기능 버전 v1.3.0-eksbuild.1 이상을 사용하여 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 사용해야 합니다.
쿠버네티스용 NVIDIA 디바이스 플러그인을 클러스터에 설치해야 합니다.
NVIDIA 컨테이너 툴킷은 클러스터의 노드에 설치해야 합니다. 예를 들어 Amazon EKS 최적화된 가속화 AMI는 필수 구성 요소로 구축됩니다.

CloudWatch 에이전트 구성 파일 처음의 accelerated_compute_metrics 옵션을 false로 설정하여 NVIDIA GPU 지표 수집을 옵트아웃할 수 있습니다. 자세한 내용과 옵트아웃 예시는 (선택 사항) 추가 구성 단원을 참조하십시오.

지표 이름	측정 기준	설명
`container_gpu_memory_total`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	컨테이너에 할당된 GPU의 총 프레임 버퍼 바이트 규모.
`container_gpu_memory_used`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	컨테이너에 할당된 GPU에서 사용된 프레임 버퍼의 바이트.
`container_gpu_memory_utilization`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	컨테이너에 할당된 GPU의 프레임 버퍼 사용률.
`container_gpu_power_draw`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	컨테이너에 할당된 GPU의 전력 와트 사용량.
`container_gpu_temperature`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	컨테이너에 할당된 GPU의 섭씨 온도.
`container_gpu_utilization`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	컨테이너에 할당된 GPU의 활용률.
`container_gpu_tensor_core_utilization`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	컨테이너에 할당된 GPU의 텐서 코어 사용률.
`node_gpu_memory_total`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	노드에 할당된 GPU의 총 프레임 버퍼 바이트 규모.
`node_gpu_memory_used`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	노드에 할당된 GPU에서 사용된 프레임 버퍼의 바이트.
`node_gpu_memory_utilization`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	노드에 할당된 GPU의 프레임 버퍼 사용률.
`node_gpu_power_draw`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	노드에 할당된 GPU의 전력 와트 사용량.
`node_gpu_temperature`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	노드에 할당된 GPU의 섭씨 온도.
`node_gpu_utilization`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	노드에 할당된 GPU의 활용률.
`node_gpu_tensor_core_utilization`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	노드에 할당된 GPU의 텐서 코어 사용률.
`pod_gpu_memory_total`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`	포드에 할당된 GPU의 총 프레임 버퍼 바이트 규모.
`pod_gpu_memory_used`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`	포드에 할당된 GPU에서 사용된 프레임 버퍼의 바이트.
`pod_gpu_memory_utilization`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`	포드에 할당된 GPU의 프레임 버퍼 사용률.
`pod_gpu_power_draw`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`	포드에 할당된 GPU의 전력 와트 사용량.
`pod_gpu_temperature`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`	포드에 할당된 GPU 온도(섭씨).
`pod_gpu_utilization`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	포드에 할당된 GPU의 활용률.
`pod_gpu_tensor_core_utilization`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	포드에 할당된 GPU의 텐서 코어 사용률.

세부적인 GPU 모니터링

CloudWatch 에이전트 1.300062.0 버전부터 Amazon EKS에 대해 향상된 관찰성 기능이 포함되는 Container Insights는 1분 미만의 수집 간격으로 세부 GPU 모니터링을 지원합니다. 이를 통해 일반적인 수집 간격으로는 완전히 누락될 수 있는 단기 기계 학습 추론 워크로드의 모니터링 격차를 해결할 수 있습니다. CloudWatch 에이전트를 설치할 때는 CloudWatch Observability EKS 추가 기능 버전 v4.7.0-eksbuild.1 이상을 사용해야 합니다. 자세한 내용은 Amazon CloudWatch Observability EKS 추가 기능 또는 헬름 차트를 사용하여 CloudWatch 에이전트 설치 섹션을 참조하세요.

기본적으로 GPU 지표는 60초 간격으로 수집됩니다. 세부 모니터링이 활성화된 상태에서는 CloudWatch 에이전트가 1분 미만의 간격(최소 1초)으로 GPU 지표를 수집하지만, 지표는 여전히 1분 간격으로 CloudWatch에 수집됩니다. 그러나 각각의 1분 내에서 1분 미만 데이터 포인트의 통계 집계(예: 최소, 최대, 백분위수(예: p90))를 쿼리할 수 있으므로, 정확한 GPU 사용률 데이터가 제공되고 리소스가 한층 더 최적화됩니다.

구성

자세한 GPU 모니터링을 활성화하려면 다음 예제와 같이 kubernetes 섹션에 accelerated_compute_gpu_metrics_collection_interval 파라미터를 포함하도록 CloudWatch 에이전트 구성을 업데이트하세요.


{  
    "logs": {  
        "metrics_collected": {  
            "kubernetes": {  
                "cluster_name": "MyCluster",  
                "enhanced_container_insights": true,  
                "accelerated_compute_metrics": true,  
                "accelerated_compute_gpu_metrics_collection_interval": 1  
            }  
        }  
    }  
}

accelerated_compute_gpu_metrics_collection_interval 파라미터는 초 단위로 값을 수락하며, 최소값은 1초입니다. 이 값을 1로 설정하면 1초라는 수집 간격이 활성화됩니다. 이 파라미터를 지정하지 않으면 60초 간격이 기본값으로 사용됩니다.

전체 구성 지침은 클러스터 지표를 수집하도록 CloudWatch 에이전트 설정 섹션을 참조하세요.

AWS Trainium 및 AWS Inferentia의 AWS Neuron 지표

CloudWatch 에이전트의 1.300036.0 버전부터 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights는 기본적으로 AWS Trainium 및 AWS Inferentia 액셀러레이터로부터 가속화된 컴퓨팅 지표를 수집합니다. CloudWatch 에이전트를 설치할 때는 CloudWatch Observability EKS 추가 기능 버전 v1.5.0-eksbuild.1 이상을 사용해야 합니다. 추가 기능에 대한 자세한 내용은 Amazon CloudWatch Observability EKS 추가 기능 또는 헬름 차트를 사용하여 CloudWatch 에이전트 설치 섹션을 참조하세요. AWS Trainium에 대한 자세한 내용은 AWS Trainium을 참조하세요. AWS Inferentia에 대한 자세한 내용은 AWS Inferentia를 참조하세요.

Container Insights로 AWS Neuron 지표를 수집하려면 다음 사전 조건을 충족해야 합니다.

Amazon CloudWatch Observability EKS 추가 기능 버전 v1.5.0-eksbuild.1 이상을 사용하여 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 사용해야 합니다.
Neuron 드라이버는 클러스터의 노드에 설치해야 합니다.
Neuron 디바이스 플러그인은 클러스터에 설치해야 합니다. 예를 들어 Amazon EKS 최적화된 가속화 AMI는 필수 구성 요소로 구축됩니다.

이렇게 수집된 지표는 이 섹션의 표에 나열되어 있습니다. 지표는 AWS Trainium, AWS Inferentia, AWS Inferentia2에 대해 수집됩니다.

CloudWatch 에이전트는 Neuron 모니터에서 이러한 지표를 수집하고 필요한 Kubernetes 리소스 상관 관계를 수행하여 포드 및 컨테이너 수준에서 지표를 제공합니다.

지표 이름 측정 기준 설명

지표 이름	측정 기준	설명
`container_neuroncore_utilization`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	컨테이너에 할당된 NeuronCore의 캡처된 기간 동안의 NeuronCore 사용률. 단위: 퍼센트
`container_neuroncore_memory_usage_constants`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	NeuronCore의 교육 도중 컨테이너에 할당된 상수(또는 추론 중 가중치)에 사용되는 디바이스 메모리의 양입니다. 단위: 바이트
`container_neuroncore_memory_usage_model_code`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	컨테이너에 할당된 NeuronCore가 모델의 실행 코드에 사용하는 디바이스 메모리의 양입니다. 단위: 바이트
`container_neuroncore_memory_usage_model_shared_scratchpad`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	컨테이너에 할당된 NeuronCore가 모델의 공유되는 스크래치패드에 사용하는 디바이스 메모리의 양입니다. 이 메모리 영역은 모델용입니다. 단위: 바이트
`container_neuroncore_memory_usage_runtime_memory`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	컨테이너에 할당된 NeuronCore에서 Neuron 런타임에 사용하는 디바이스 메모리의 양입니다. 단위: 바이트
`container_neuroncore_memory_usage_tensors`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	컨테이너에 할당된 NeuronCore에서 텐서에 사용하는 디바이스 메모리의 양입니다. 단위: 바이트
`container_neuroncore_memory_usage_total`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	컨테이너에 할당된 NeuronCore에서 사용하는 총 메모리의 양입니다. 단위: 바이트
`container_neurondevice_hw_ecc_events_total`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`	노드에 있는 Neuron 디바이스의 온칩 SRAM 및 디바이스 메모리에 대해 수정 및 수정되지 않은 ECC 이벤트의 수입니다. 단위: 수
`pod_neuroncore_utilization`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	포드에 할당된 NeuronCore의 캡처된 기간 동안의 NeuronCore 사용률. 단위: 퍼센트
`pod_neuroncore_memory_usage_constants`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	NeuronCore의 교육 도중 포드에 할당된 상수(또는 추론 중 가중치)에 사용되는 디바이스 메모리의 양입니다. 단위: 바이트
`pod_neuroncore_memory_usage_model_code`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	포드에 할당된 NeuronCore가 모델의 실행 코드에 사용하는 디바이스 메모리의 양입니다. 단위: 바이트
`pod_neuroncore_memory_usage_model_shared_scratchpad`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	포드에 할당된 NeuronCore가 모델의 공유되는 스크래치패드에 사용하는 디바이스 메모리의 양입니다. 이 메모리 영역은 모델용입니다. 단위: 바이트
`pod_neuroncore_memory_usage_runtime_memory`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	포드에 할당된 NeuronCore에서 Neuron 런타임에 사용하는 디바이스 메모리의 양입니다. 단위: 바이트
`pod_neuroncore_memory_usage_tensors`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	포드에 할당된 NeuronCore에서 텐서에 사용하는 디바이스 메모리의 양입니다. 단위: 바이트
`pod_neuroncore_memory_usage_total`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	포드에 할당된 NeuronCore에서 사용하는 총 메모리의 양입니다. 단위: 바이트
`pod_neurondevice_hw_ecc_events_total`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`	포드에 할당된 Neuron 디바이스의 온칩 SRAM 및 디바이스 메모리에 대해 수정 및 수정되지 않은 ECC 이벤트의 수입니다. 단위: 바이트
`node_neuroncore_utilization`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	노드에 할당된 NeuronCore의 캡처된 기간 동안의 NeuronCore 사용률. 단위: 퍼센트
`node_neuroncore_memory_usage_constants`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	NeuronCore의 교육 도중 노드에 할당된 상수(또는 추론 중 가중치)에 사용되는 디바이스 메모리의 양입니다. 단위: 바이트
`node_neuroncore_memory_usage_model_code`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	노드에 할당된 NeuronCore가 모델의 실행 코드에 사용하는 디바이스 메모리의 양입니다. 단위: 바이트
`node_neuroncore_memory_usage_model_shared_scratchpad`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	노드에 할당된 NeuronCore가 모델의 공유되는 스크래치패드에 사용하는 디바이스 메모리의 양입니다. 이 메모리 영역은 모델용입니다. 단위: 바이트
`node_neuroncore_memory_usage_runtime_memory`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	노드에 할당된 NeuronCore에서 Neuron 런타임에 사용하는 디바이스 메모리의 양입니다. 단위: 바이트
`node_neuroncore_memory_usage_tensors`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	노드에 할당된 NeuronCore에서 텐서에 사용하는 디바이스 메모리의 양입니다. 단위: 바이트
`node_neuroncore_memory_usage_total`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	노드에 할당된 NeuronCore에서 사용하는 총 메모리의 양입니다. 단위: 바이트
`node_neuron_execution_errors_total`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName`	노드의 총 실행 오류 수입니다. 이 값은 CloudWatch 에이전트에서 `generic`, `numerical`, `transient`, `model`, `runtime`, `hardware` 유형의 오류를 집계하여 계산됩니다. 단위: 수
`node_neurondevice_runtime_memory_used_bytes`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName`	노드의 Neuron 디바이스 메모리 사용량(바이트)의 총합입니다. 단위: 바이트
`node_neuron_execution_latency`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName`	Neuron 런타임으로 측정한 노드에서의 실행 지연 시간(초)입니다. 단위: 초
`node_neurondevice_hw_ecc_events_total`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `NodeName`, `NeuronDevice`	노드에 있는 Neuron 디바이스의 온칩 SRAM 및 디바이스 메모리에 대해 수정 및 수정되지 않은 ECC 이벤트의 수입니다. 단위: 수

container_neuroncore_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

컨테이너에 할당된 NeuronCore의 캡처된 기간 동안의 NeuronCore 사용률.

단위: 퍼센트

container_neuroncore_memory_usage_constants

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

NeuronCore의 교육 도중 컨테이너에 할당된 상수(또는 추론 중 가중치)에 사용되는 디바이스 메모리의 양입니다.

단위: 바이트

container_neuroncore_memory_usage_model_code

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

컨테이너에 할당된 NeuronCore가 모델의 실행 코드에 사용하는 디바이스 메모리의 양입니다.

단위: 바이트

container_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

컨테이너에 할당된 NeuronCore가 모델의 공유되는 스크래치패드에 사용하는 디바이스 메모리의 양입니다. 이 메모리 영역은 모델용입니다.

단위: 바이트

container_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

컨테이너에 할당된 NeuronCore에서 Neuron 런타임에 사용하는 디바이스 메모리의 양입니다.

단위: 바이트

container_neuroncore_memory_usage_tensors

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

컨테이너에 할당된 NeuronCore에서 텐서에 사용하는 디바이스 메모리의 양입니다.

단위: 바이트

container_neuroncore_memory_usage_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

컨테이너에 할당된 NeuronCore에서 사용하는 총 메모리의 양입니다.

단위: 바이트

container_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice

노드에 있는 Neuron 디바이스의 온칩 SRAM 및 디바이스 메모리에 대해 수정 및 수정되지 않은 ECC 이벤트의 수입니다.

단위: 수

pod_neuroncore_utilization

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

포드에 할당된 NeuronCore의 캡처된 기간 동안의 NeuronCore 사용률.

단위: 퍼센트

pod_neuroncore_memory_usage_constants

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

NeuronCore의 교육 도중 포드에 할당된 상수(또는 추론 중 가중치)에 사용되는 디바이스 메모리의 양입니다.

단위: 바이트

pod_neuroncore_memory_usage_model_code

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

포드에 할당된 NeuronCore가 모델의 실행 코드에 사용하는 디바이스 메모리의 양입니다.

단위: 바이트

pod_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

포드에 할당된 NeuronCore가 모델의 공유되는 스크래치패드에 사용하는 디바이스 메모리의 양입니다. 이 메모리 영역은 모델용입니다.

단위: 바이트

pod_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

포드에 할당된 NeuronCore에서 Neuron 런타임에 사용하는 디바이스 메모리의 양입니다.

단위: 바이트

pod_neuroncore_memory_usage_tensors

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

포드에 할당된 NeuronCore에서 텐서에 사용하는 디바이스 메모리의 양입니다.

단위: 바이트

pod_neuroncore_memory_usage_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

포드에 할당된 NeuronCore에서 사용하는 총 메모리의 양입니다.

단위: 바이트

pod_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice

포드에 할당된 Neuron 디바이스의 온칩 SRAM 및 디바이스 메모리에 대해 수정 및 수정되지 않은 ECC 이벤트의 수입니다.

단위: 바이트

node_neuroncore_utilization

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

노드에 할당된 NeuronCore의 캡처된 기간 동안의 NeuronCore 사용률.

단위: 퍼센트

node_neuroncore_memory_usage_constants

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

NeuronCore의 교육 도중 노드에 할당된 상수(또는 추론 중 가중치)에 사용되는 디바이스 메모리의 양입니다.

단위: 바이트

node_neuroncore_memory_usage_model_code

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

노드에 할당된 NeuronCore가 모델의 실행 코드에 사용하는 디바이스 메모리의 양입니다.

단위: 바이트

node_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

노드에 할당된 NeuronCore가 모델의 공유되는 스크래치패드에 사용하는 디바이스 메모리의 양입니다. 이 메모리 영역은 모델용입니다.

단위: 바이트

node_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

노드에 할당된 NeuronCore에서 Neuron 런타임에 사용하는 디바이스 메모리의 양입니다.

단위: 바이트

node_neuroncore_memory_usage_tensors

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

노드에 할당된 NeuronCore에서 텐서에 사용하는 디바이스 메모리의 양입니다.

단위: 바이트

node_neuroncore_memory_usage_total

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

노드에 할당된 NeuronCore에서 사용하는 총 메모리의 양입니다.

단위: 바이트

node_neuron_execution_errors_total

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

노드의 총 실행 오류 수입니다. 이 값은 CloudWatch 에이전트에서 generic, numerical, transient, model, runtime, hardware 유형의 오류를 집계하여 계산됩니다.

단위: 수

node_neurondevice_runtime_memory_used_bytes

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

노드의 Neuron 디바이스 메모리 사용량(바이트)의 총합입니다.

단위: 바이트

node_neuron_execution_latency

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

Neuron 런타임으로 측정한 노드에서의 실행 지연 시간(초)입니다.

단위: 초

node_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, NodeName, NeuronDevice

노드에 있는 Neuron 디바이스의 온칩 SRAM 및 디바이스 메모리에 대해 수정 및 수정되지 않은 ECC 이벤트의 수입니다.

단위: 수

AWS Elastic Fabric Adapter(EFA) 지표

CloudWatch 에이전트 1.300037.0 버전부터 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights 는 Linux 인스턴스의 Amazon EKS 클러스터로부터 AWS Elastic Fabric Adapter(EFA) 지표를 수집합니다. CloudWatch 에이전트를 설치할 때는 CloudWatch Observability EKS 추가 기능 버전 v1.5.2-eksbuild.1 이상을 사용해야 합니다. 추가 기능에 대한 자세한 내용은 Amazon CloudWatch Observability EKS 추가 기능 또는 헬름 차트를 사용하여 CloudWatch 에이전트 설치 섹션을 참조하세요. AWS Elastic Fabric Adapter에 대한 자세한 내용은 Elastic Fabric Adapter를 참조하세요.

Container Insights로 AWS Elastic Fabric Adapter 지표를 수집하려면 다음 사전 조건을 충족해야 합니다.

Amazon CloudWatch Observability EKS 추가 기능 버전 v1.5.2-eksbuild.1 이상을 사용하여 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 사용해야 합니다.
EFA 디바이스 플러그인은 클러스터에 설치해야 합니다. 자세한 내용은 GitHub의 aws-efa-k8s-device-plugin을 참조하세요.

수집된 지표 목록은 다음 표에 나와 있습니다.

지표 이름 측정 기준 설명

지표 이름	측정 기준	설명
`container_efa_rx_bytes`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NetworkInterfaceId`	컨테이너에 할당된 EFA 디바이스에서 수신하는 초당 바이트 수입니다. 단위: 바이트/초
`container_efa_tx_bytes`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NetworkInterfaceId`	컨테이너에 할당된 EFA 디바이스에서 송신하는 초당 바이트 수입니다. 단위: 바이트/초
`container_efa_rx_dropped`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NetworkInterfaceId`	컨테이너에 할당된 EFA 디바이스에서 수신 후 삭제된 패킷 수입니다. 단위: 개수/초
`container_efa_rdma_read_bytes`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NetworkInterfaceId`	컨테이너에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 읽기 작업을 사용하여 수신하는 초당 바이트 수입니다. 단위: 바이트/초
`container_efa_rdma_write_bytes`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NetworkInterfaceId`	컨테이너에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 읽기 작업을 사용하여 송신하는 초당 바이트 수입니다. 단위: 바이트/초
`container_efa_rdma_write_recv_bytes`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NetworkInterfaceId`	컨테이너에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 쓰기 작업 도중 수신하는 초당 바이트 수입니다. 단위: 바이트/초
`pod_efa_rx_bytes`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NetworkInterfaceId`	포드에 할당된 EFA 디바이스에서 수신하는 초당 바이트 수입니다. 단위: 바이트/초
`pod_efa_tx_bytes`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NetworkInterfaceId`	포드에 할당된 EFA 디바이스에서 송신하는 초당 바이트 수입니다. 단위: 바이트/초
`pod_efa_rx_dropped`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NetworkInterfaceId`	포드에 할당된 EFA 디바이스에서 수신 후 삭제된 패킷 수입니다. 단위: 개수/초
`pod_efa_rdma_read_bytes`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NetworkInterfaceId`	포드에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 읽기 작업을 사용하여 수신하는 초당 바이트 수입니다. 단위: 바이트/초
`pod_efa_rdma_write_bytes`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NetworkInterfaceId`	포드에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 읽기 작업을 사용하여 송신하는 초당 바이트 수입니다. 단위: 바이트/초
`pod_efa_rdma_write_recv_bytes`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NetworkInterfaceId`	포드에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 쓰기 작업 도중 수신하는 초당 바이트 수입니다. 단위: 바이트/초
`node_efa_rx_bytes`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `NetworkInterfaceId`	노드에 할당된 EFA 디바이스에서 수신하는 초당 바이트 수입니다. 단위: 바이트/초
`node_efa_tx_bytes`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `NetworkInterfaceId`	노드에 할당된 EFA 디바이스에서 송신하는 초당 바이트 수입니다. 단위: 바이트/초
`node_efa_rx_dropped`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `NetworkInterfaceId`	노드에 할당된 EFA 디바이스에서 수신 후 삭제된 패킷 수입니다. 단위: 개수/초
`node_efa_rdma_read_bytes`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `NetworkInterfaceId`	노드에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 읽기 작업을 사용하여 수신하는 초당 바이트 수입니다. 단위: 바이트/초
`node_efa_rdma_write_bytes`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `NetworkInterfaceId`	포드에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 읽기 작업을 사용하여 송신하는 초당 바이트 수입니다. 단위: 바이트/초
`node_efa_rdma_write_recv_bytes`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `NetworkInterfaceId`	노드에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 쓰기 작업 도중 수신하는 초당 바이트 수입니다. 단위: 바이트/초

container_efa_rx_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

컨테이너에 할당된 EFA 디바이스에서 수신하는 초당 바이트 수입니다.

단위: 바이트/초

container_efa_tx_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

컨테이너에 할당된 EFA 디바이스에서 송신하는 초당 바이트 수입니다.

단위: 바이트/초

container_efa_rx_dropped

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

컨테이너에 할당된 EFA 디바이스에서 수신 후 삭제된 패킷 수입니다.

단위: 개수/초

container_efa_rdma_read_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

컨테이너에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 읽기 작업을 사용하여 수신하는 초당 바이트 수입니다.

단위: 바이트/초

container_efa_rdma_write_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

컨테이너에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 읽기 작업을 사용하여 송신하는 초당 바이트 수입니다.

단위: 바이트/초

container_efa_rdma_write_recv_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

컨테이너에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 쓰기 작업 도중 수신하는 초당 바이트 수입니다.

단위: 바이트/초

pod_efa_rx_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

포드에 할당된 EFA 디바이스에서 수신하는 초당 바이트 수입니다.

단위: 바이트/초

pod_efa_tx_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

포드에 할당된 EFA 디바이스에서 송신하는 초당 바이트 수입니다.

단위: 바이트/초

pod_efa_rx_dropped

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

포드에 할당된 EFA 디바이스에서 수신 후 삭제된 패킷 수입니다.

단위: 개수/초

pod_efa_rdma_read_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

포드에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 읽기 작업을 사용하여 수신하는 초당 바이트 수입니다.

단위: 바이트/초

pod_efa_rdma_write_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

포드에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 읽기 작업을 사용하여 송신하는 초당 바이트 수입니다.

단위: 바이트/초

pod_efa_rdma_write_recv_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

포드에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 쓰기 작업 도중 수신하는 초당 바이트 수입니다.

단위: 바이트/초

node_efa_rx_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

노드에 할당된 EFA 디바이스에서 수신하는 초당 바이트 수입니다.

단위: 바이트/초

node_efa_tx_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

노드에 할당된 EFA 디바이스에서 송신하는 초당 바이트 수입니다.

단위: 바이트/초

node_efa_rx_dropped

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

노드에 할당된 EFA 디바이스에서 수신 후 삭제된 패킷 수입니다.

단위: 개수/초

node_efa_rdma_read_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

노드에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 읽기 작업을 사용하여 수신하는 초당 바이트 수입니다.

단위: 바이트/초

node_efa_rdma_write_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

포드에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 읽기 작업을 사용하여 송신하는 초당 바이트 수입니다.

단위: 바이트/초

node_efa_rdma_write_recv_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

노드에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 쓰기 작업 도중 수신하는 초당 바이트 수입니다.

단위: 바이트/초

Amazon SageMaker AI HyperPod 지표

CloudWatch Observability EKS 애드온의 버전 v2.0.1-eksbuild.1부터 Amazon EKS에 대한 향상된 관찰성을 갖춘 Container Insights는 Amazon EKS 클러스터에서 Amazon SageMaker AI HyperPod 지표를 자동으로 수집합니다. 추가 기능에 대한 자세한 내용은 Amazon CloudWatch Observability EKS 추가 기능 또는 헬름 차트를 사용하여 CloudWatch 에이전트 설치 섹션을 참조하세요. Amazon SageMaker AI HyperPod에 대한 자세한 내용은 Amazon SageMaker AI HyperPod를 참조하세요.

수집된 지표 목록은 다음 표에 나와 있습니다.

지표 이름 측정 기준 설명

지표 이름	측정 기준	설명
`hyperpod_node_health_status_unschedulable`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Amazon SageMaker AI HyperPod에 의해 노드가 `Unschedulable`로 레이블이 지정되었는지를 나타냅니다. 이는 노드가 심층 상태 확인을 실행 중이며 워크로드 실행에 사용할 수 없음을 의미합니다. 단위: 수
`hyperpod_node_health_status_schedulable`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Amazon SageMaker AI HyperPod에 의해 노드가 `Schedulable`로 레이블이 지정되었는지를 나타냅니다. 이는 노드가 기본 상태 확인 또는 심층 상태 확인을 통과했으며 워크로드 실행에 사용할 수 있음을 의미합니다. 단위: 수
`hyperpod_node_health_status_unschedulable_pending_replacement`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	HyperPod에 의해 노드가 `UnschedulablePendingReplacement`로 레이블이 지정되었는지를 나타냅니다. 이는 노드가 심층 상태 확인 또는 상태 모니터링 에이전트 확인에 실패했으며 교체가 필요함을 의미합니다. 자동 노드 복구가 활성화된 경우 Amazon SageMaker AI HyperPod에 의해 노드가 자동으로 교체됩니다. 단위: 수
`hyperpod_node_health_status_unschedulable_pending_reboot`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Amazon SageMaker AI HyperPod에 의해 노드가 `UnschedulablePendingReboot`로 레이블이 지정되었는지를 나타냅니다. 이는 노드가 심층 상태 확인을 실행 중이며 재부팅이 필요함을 의미합니다. 자동 노드 복구가 활성화된 경우 Amazon SageMaker AI HyperPod에 의해 노드가 자동으로 재부팅됩니다. 단위: 수

hyperpod_node_health_status_unschedulable

ClusterName

ClusterName, InstanceId, NodeName

Amazon SageMaker AI HyperPod에 의해 노드가 Unschedulable로 레이블이 지정되었는지를 나타냅니다. 이는 노드가 심층 상태 확인을 실행 중이며 워크로드 실행에 사용할 수 없음을 의미합니다.

단위: 수

hyperpod_node_health_status_schedulable

ClusterName

ClusterName, InstanceId, NodeName

Amazon SageMaker AI HyperPod에 의해 노드가 Schedulable로 레이블이 지정되었는지를 나타냅니다. 이는 노드가 기본 상태 확인 또는 심층 상태 확인을 통과했으며 워크로드 실행에 사용할 수 있음을 의미합니다.

단위: 수

hyperpod_node_health_status_unschedulable_pending_replacement

ClusterName

ClusterName, InstanceId, NodeName

HyperPod에 의해 노드가 UnschedulablePendingReplacement로 레이블이 지정되었는지를 나타냅니다. 이는 노드가 심층 상태 확인 또는 상태 모니터링 에이전트 확인에 실패했으며 교체가 필요함을 의미합니다.

자동 노드 복구가 활성화된 경우 Amazon SageMaker AI HyperPod에 의해 노드가 자동으로 교체됩니다.

단위: 수

hyperpod_node_health_status_unschedulable_pending_reboot

ClusterName

ClusterName, InstanceId, NodeName

Amazon SageMaker AI HyperPod에 의해 노드가 UnschedulablePendingReboot로 레이블이 지정되었는지를 나타냅니다. 이는 노드가 심층 상태 확인을 실행 중이며 재부팅이 필요함을 의미합니다.

자동 노드 복구가 활성화된 경우 Amazon SageMaker AI HyperPod에 의해 노드가 자동으로 재부팅됩니다.

단위: 수

Amazon EBS NVMe 드라이버 지표

CloudWatch 에이전트 1.300056.0 버전부터 Amazon EKS의 향상된 관찰성을 갖춘 Container Insights는 Linux 인스턴스의 Amazon EKS 클러스터로부터 Amazon EBS NVMe 드라이버 지표를 수집합니다. CloudWatch 에이전트를 설치할 때는 CloudWatch Observability Amazon EKS 추가 기능 버전 4.1.0 이상을 사용해야 합니다. 추가 기능에 대한 자세한 내용은 Amazon CloudWatch Observability EKS 추가 기능 또는 헬름 차트를 사용하여 CloudWatch 에이전트 설치 섹션을 참조하세요. Amazon EBS에 대한 자세한 내용은 Amazon EBS 세부 성능 통계를 참조하세요.

Container Insights로 Amazon EBS NVMe 드라이버 지표를 수집하려면 다음 사전 요구 사항을 충족해야 합니다.

CloudWatch Observability Amazon EKS 추가 기능 버전 4.1.0 이상을 사용하여 Amazon EKS의 향상된 관찰성을 갖춘 Container Insights를 사용해야 합니다.
지표가 활성화된 클러스터에 EBS CSI 드라이버 1.42.0 추가 기능 또는 헬름 차트를 설치해야 합니다.
- Amazon EBS CSI 드라이버 추가 기능을 사용할 때 지표를 활성화하려면 추가 기능을 생성하거나 업데이트할 때 다음 옵션을 사용합니다. --configuration-values '{ "node": { "enableMetrics": true } }'
- 헬름 차트를 사용하는 경우 지표를 활성화하려면 추가 기능을 생성하거나 업데이트할 때 다음 옵션을 사용합니다. --set node.enableMetrics=true

수집된 지표 목록은 다음 표에 나와 있습니다.

지표 이름	측정 기준	설명
`node_diskio_ebs_total_read_ops`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	완료된 총 읽기 작업 수입니다.
`node_diskio_ebs_total_write_ops`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	완료된 총 쓰기 작업 수입니다.
`node_diskio_ebs_total_read_bytes`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	전송된 총 읽기 바이트 수입니다.
`node_diskio_ebs_total_write_bytes`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	전송된 총 쓰기 바이트 수입니다.
`node_diskio_ebs_total_read_time`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	모든 완료된 읽기 작업에 소요된 총 시간(밀리초)입니다.
`node_diskio_ebs_total_write_time`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	모든 완료된 쓰기 작업에 소요된 총 시간(마이크로초)입니다.
`node_diskio_ebs_volume_performance_exceeded_iops`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	IOPS 수요가 볼륨의 프로비저닝된 IOPS 성능을 초과한 총 시간(마이크로초)입니다.
`node_diskio_ebs_volume_performance_exceeded_tp`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	처리량 수요가 볼륨의 프로비저닝된 처리량 성능을 초과한 총 시간(마이크로초)입니다.
`node_diskio_ebs_ec2_instance_performance_exceeded_iops`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	EBS 볼륨이 연결된 Amazon EC2 인스턴스의 최대 IOPS 성능을 초과한 총 시간(마이크로초)입니다.
`node_diskio_ebs_ec2_instance_performance_exceeded_tp`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	EBS 볼륨이 연결된 Amazon EC2 인스턴스의 최대 처리량 성능을 초과한 총 시간(마이크로초)입니다.
`node_diskio_ebs_volume_queue_length`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	완료되기를 기다리는 읽기 및 쓰기 작업의 수입니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

Amazon ECS Container Insights 지표

Amazon EKS 및 Kubernetes Container Insights 지표