Amazon EKS 및 Kubernetes Container Insights 지표 - Amazon CloudWatch

Amazon EKS 및 Kubernetes Container Insights 지표

아래 표에는 Container Insights가 Amazon EKS 및 쿠버네티스용으로 수집하는 지표 및 측정 기준이 나와 있습니다. 이러한 지표는 ContainerInsights 네임스페이스에 있습니다. 자세한 내용은 Metrics 섹션을 참조하세요.

콘솔에 Container Insights 지표가 보이지 않는 경우, Container Insights 설정을 완료했는지 확인합니다. Container Insights 설정이 완료되기 전에는 지표가 나타나지 않습니다. 자세한 내용은 Container Insights 설정 섹션을 참조하세요.

메트릭 이름 측정기준 설명

cluster_failed_node_count

ClusterName

클러스터의 실패한 작업자 노드의 숫자입니다. ‘노드 조건’ 문제를 겪고 있는 경우 노드가 실패한 것으로 간주됩니다. 자세한 내용은 Kubernetes 설명서에서 조건을 참조하세요.

cluster_node_count

ClusterName

클러스터의 작업자 노드의 총 숫자입니다.

namespace_number_of_running_pods

Namespace ClusterName

ClusterName

사용 중인 측정기준에서 지정한 리소스의 네임스페이스당 실행 중인 Pod 숫자입니다.

node_cpu_limit

ClusterName

클러스터에서 단일 노드에 할당할 수 있는 최대 CPU 단위 숫자입니다.

node_cpu_reserved_capacity

NodeName, ClusterName, InstanceId

ClusterName

kubelet, kube-proxy, Docker 등 노드 구성 요소에 예약된 CPU 단위의 비율입니다.

공식: node_cpu_request / node_cpu_limit

참고

node_cpu_request는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 섹션을 참조하세요.

node_cpu_usage_total

ClusterName

클러스터의 노드에서 사용 중인 CPU 단위의 숫자입니다.

node_cpu_utilization

NodeName, ClusterName, InstanceId

ClusterName

클러스터의 노드에서 사용 중인 CPU 단위의 총 백분율입니다.

공식: node_cpu_usage_total / node_cpu_limit

node_gpu_limit

ClusterName

ClusterName, InstanceId, NodeName

노드에서 사용 가능한 총 GPU 수.

node_gpu_usage_total

ClusterName

ClusterName, InstanceId, NodeName

노드에서 실행 중인 포드가 사용하는 GPU 수.

node_gpu_reserved_capacity

ClusterName

ClusterName, InstanceId, NodeName

노드에서 현재 예약된 GPU의 백분율. 수식은 node_gpu_request / node_gpu_limit입니다.

참고

node_gpu_request는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 섹션을 참조하세요.

node_filesystem_utilization

NodeName, ClusterName, InstanceId

ClusterName

클러스터에서 노드에 사용하는 파일 시스템 용량의 총 백분율입니다.

공식: node_filesystem_usage / node_filesystem_capacity

참고

node_filesystem_usagenode_filesystem_capacity는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 섹션을 참조하세요.

node_memory_limit

ClusterName

클러스터에서 단일 노드로 할당될 수 있는 최대 메모리의 양(바이트)입니다.

node_memory_reserved_capacity

NodeName, ClusterName, InstanceId

ClusterName

클러스터의 노드에서 현재 사용 중인 메모리의 비율입니다.

공식: node_memory_request / node_memory_limit

참고

node_memory_request는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 섹션을 참조하세요.

node_memory_utilization

NodeName, ClusterName, InstanceId

ClusterName

한 개 또는 여러 개의 노드에서 현재 사용 중인 메모리의 비율입니다. 노드 메모리 사용량을 노드 메모리 제한으로 나눈 백분율입니다.

공식: node_memory_working_set / node_memory_limit입니다.

node_memory_working_set

ClusterName

클러스터의 노드 작업 세트에서 사용하는 메모리의 양(바이트)입니다.

node_network_total_bytes

NodeName, ClusterName, InstanceId

ClusterName

클러스터에서 노드당 네트워크를 통해 전송 및 수신된 초당 바이트의 합계 수치입니다.

공식: node_network_rx_bytes + node_network_tx_bytes

참고

node_network_rx_bytesnode_network_tx_bytes는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 섹션을 참조하세요.

node_number_of_running_containers

NodeName, ClusterName, InstanceId

ClusterName

클러스터에서 노드당 실행 중인 컨테이너의 숫자입니다.

node_number_of_running_pods

NodeName, ClusterName, InstanceId

ClusterName

클러스터에서 노드당 실행 중인 Pod 숫자입니다.

pod_cpu_reserved_capacity

PodName, Namespace, ClusterName

ClusterName

클러스터에서 Pod별로 예약된 CPU 용량입니다.

공식: pod_cpu_request / node_cpu_limit

참고

pod_cpu_request는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 섹션을 참조하세요.

pod_cpu_utilization

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

Pod에서 사용 중인 CPU 단위의 비율입니다.

공식: pod_cpu_usage_total / node_cpu_limit

pod_cpu_utilization_over_pod_limit

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

포드 제한을 기준으로 포드에서 사용 중인 CPU 단위의 백분율입니다.

공식: pod_cpu_usage_total / pod_cpu_limit

pod_gpu_request

ClusterName

ClusterName, Namespace, PodName

ClusterName, FullPodName, Namespace, PodName

포드에 대한 GPU 요청. 이 값은 항상 pod_gpu_limit와 같아야 합니다.

pod_gpu_limit

ClusterName

ClusterName, Namespace, PodName

ClusterName, FullPodName, Namespace, PodName

노드의 포드에 할당할 수 있는 최대 GPU 수.

pod_gpu_usage_total

ClusterName

ClusterName, Namespace, PodName

ClusterName, FullPodName, Namespace, PodName

포드에 할당되는 GPU 수.

pod_gpu_reserved_capacity

ClusterName

ClusterName, Namespace, PodName

ClusterName, FullPodName, Namespace, PodName

포드에 대해 현재 예약된 GPU의 백분율. 수식은 pod_gpu_request / node_gpu_reserved_capacity입니다.

pod_memory_reserved_capacity

PodName, Namespace, ClusterName

ClusterName

포드에 예약된 메모리의 비율입니다.

공식: pod_memory_request / node_memory_limit

참고

pod_memory_request는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 섹션을 참조하세요.

pod_memory_utilization

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

한 개 또는 여러 개의 Pod에서 현재 사용 중인 메모리의 비율입니다.

공식: pod_memory_working_set / node_memory_limit

pod_memory_utilization_over_pod_limit

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

포드 제한을 기준으로 포드에서 사용 중인 메모리의 백분율입니다. 포드의 컨테이너에 메모리 제한이 정의되지 않은 경우 이 지표는 표시되지 않습니다.

공식: pod_memory_working_set / pod_memory_limit

pod_network_rx_bytes

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

Pod에서 네트워크를 통해 수신 중인 초당 바이트 수입니다.

공식: sum(pod_interface_network_rx_bytes)

참고

pod_interface_network_rx_bytes는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 섹션을 참조하세요.

pod_network_tx_bytes

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

Pod에서 네트워크를 통해 전송 중인 초당 바이트 수입니다.

공식: sum(pod_interface_network_tx_bytes)

참고

pod_interface_network_tx_bytes는 지표로 직접 보고되지는 않지만 성능 로그 이벤트의 필드입니다. 자세한 내용은 Amazon EKS 및 Kubernetes에 대한 성능 로그 이벤트의 관련 필드 섹션을 참조하세요.

pod_number_of_container_restarts

PodName, Namespace, ClusterName

Pod의 컨테이너 재시작 총 횟수입니다.

service_number_of_running_pods

Service, Namespace, ClusterName

ClusterName

클러스터에서 단일 또는 복수의 서비스를 실행하는 Pod의 숫자입니다.

Kueue 지표

CloudWatch Observability EKS 추가 기능의 v2.4.0-eksbuild.1 버전부터는 Container Insights for Amazon EKS는 Amazon EKS 클러스터에서 Kueue 지표를 자동으로 수집합니다. 추가 기능에 대한 자세한 내용은 Amazon CloudWatch Observability EKS 추가 기능 또는 헬름 차트를 사용하여 CloudWatch 에이전트 설치 섹션을 참조하세요.

지표 활성화에 대한 자세한 내용을 보려면 Kueue 지표 활성화 섹션을 참조하여 지표를 활성화합니다.

Kueue 지표 목록은 다음 표에 나와 있습니다. 이러한 지표는 다음 CloudWatch의 ContainerInsights/Prometheus 네임스페이스에 게시됩니다. 이러한 지표 중 일부는 다음과 같은 차원을 사용합니다.

  • ClusterQueue는 ClusterQueue의 이름입니다.

  • Status의 가능한 값은 activeinadmissible입니다.

  • Reason의 가능한 값은 Preempted, PodsReadyTimeout, AdmissionCheck, ClusterQueueStopped, InactiveWorkload입니다.

  • Flavor는 참조된 flavor입니다.

  • Resourcecpu, memory, gpu 등과 같은 클러스터 컴퓨터 리소스를 참조합니다.

메트릭 이름 측정기준 설명

kueue_pending_workloads

ClusterName, ClusterQueue, Status

ClusterName, ClusterQueue

ClusterName, Status

ClusterName

보류 중인 워크로드 수입니다.

kueue_evicted_workloads_total

ClusterName, ClusterQueue, Reason

ClusterName, ClusterQueue

ClusterName, Reason

ClusterName

제거된 총 워크로드의 수입니다.

kueue_admitted_active_workloads

ClusterName, ClusterQueue

ClusterName

활성(일시 중지되지 않고 완료되지 않음) 상태인 허용된 워크로드 수입니다.

kueue_cluster_queue_resource_usage

ClusterName, ClusterQueue, Resource, Flavor

ClusterName, ClusterQueue, Resource

ClusterName, ClusterQueue, Flavor

ClusterName, ClusterQueue

ClusterName

ClusterQueue의 총 리소스 사용량을 보고합니다.

kueue_cluster_queue_nominal_quota

ClusterName, ClusterQueue, Resource, Flavor

ClusterName, ClusterQueue, Resource

ClusterName, ClusterQueue, Flavor

ClusterName, ClusterQueue

ClusterName

ClusterQueue의 리소스 할당량을 보고합니다.