Amazon EKS 및 향상된 관찰성 지표를 갖춘 Kubernetes Container Insights
아래 표에는 향상된 관찰성을 갖춘 Container Insights가 Amazon EKS 및 쿠버네티스용으로 수집하는 지표 및 측정 기준이 나와 있습니다. 이러한 지표는 ContainerInsights
네임스페이스에 있습니다. 자세한 내용은 Metrics 섹션을 참조하세요.
콘솔에 향상된 관찰성을 갖춘 Container Insights 지표가 표시되지 않는 경우, 향상된 관찰성을 갖춘 Container Insights 설정을 완료했는지 확인합니다. 향상된 관찰성을 갖춘 Container Insights 설정이 완료되기 전에는 지표가 표시되지 않습니다. 자세한 내용은 Container Insights 설정 섹션을 참조하세요.
Amazon EKS 추가 기능 버전 1.5.0 이상 또는 CloudWatch 에이전트 버전 1.300035.0을 사용 중인 경우 다음 표에 나열된 대부분의 지표가 Linux와 Windows 노드 모두에 대해 수집됩니다. 표의 지표 이름 열을 참조하여 Windows에서 수집되지 않는 지표를 확인하세요.
클러스터 및 서비스 수준에서 집계된 지표를 제공하는 이전 버전의 Container Insights를 사용할 경우, 지표에 대한 요금이 사용자 지정 지표로 청구됩니다. Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 사용하면 Container Insights 지표는 저장된 지표나 수집된 로그별로 요금이 부과되는 대신 관찰당 요금이 부과됩니다. CloudWatch 요금에 대한 자세한 내용은 Amazon CloudWatch 요금
참고
Windows에서는 호스트 프로세스 컨테이너에 대해 pod_network_rx_bytes
및 pod_network_tx_bytes
등의 네트워크 지표는 수집되지 않습니다.
RedHat OpenShift onAWS (ROSA) 클러스터에서는 node_diskio_io_serviced_total
및 node_diskio_io_service_bytes_total
과 같은 디스크 입출력 지표가 수집되지 않습니다.
메트릭 이름 | 측정기준 | 설명 |
---|---|---|
|
|
클러스터의 실패한 작업자 노드의 숫자입니다. ‘노드 조건’ 문제를 겪고 있는 경우 노드가 실패한 것으로 간주됩니다. 자세한 내용은 Kubernetes 설명서에서 조건 |
|
|
클러스터의 작업자 노드의 총 숫자입니다. |
|
|
사용 중인 측정기준에서 지정한 리소스의 네임스페이스당 실행 중인 Pod 숫자입니다. |
|
|
클러스터에서 단일 노드에 할당할 수 있는 최대 CPU 단위 숫자입니다. |
|
|
kubelet, kube-proxy, Docker 등 노드 구성 요소에 예약된 CPU 단위의 비율입니다. 공식: 참고
|
|
|
클러스터의 노드에서 사용 중인 CPU 단위의 숫자입니다. |
|
|
클러스터의 노드에서 사용 중인 CPU 단위의 총 백분율입니다. 공식: |
|
|
클러스터에서 노드에 사용하는 파일 시스템 용량의 총 백분율입니다. 공식: 참고
|
|
|
클러스터에서 단일 노드로 할당될 수 있는 최대 메모리의 양(바이트)입니다. |
Windows에서는 제공되지 않습니다. |
|
노드의 총 아이노드(사용 및 미사용) 수입니다. |
Windows에서는 제공되지 않습니다. |
|
노드의 미사용 아이노드 수입니다. |
|
|
노드에서 사용 가능한 총 GPU 수. |
|
|
노드에서 실행 중인 포드가 사용하는 GPU 수. |
|
|
|
|
|
클러스터의 노드에서 현재 사용 중인 메모리의 비율입니다. 공식: 참고
|
|
|
한 개 또는 여러 개의 노드에서 현재 사용 중인 메모리의 비율입니다. 노드 메모리 사용량을 노드 메모리 제한으로 나눈 백분율입니다. 공식: |
|
|
클러스터의 노드 작업 세트에서 사용하는 메모리의 양(바이트)입니다. |
|
|
클러스터에서 노드당 네트워크를 통해 전송 및 수신된 초당 바이트의 합계 수치입니다. 공식: 참고
|
|
|
클러스터에서 노드당 실행 중인 컨테이너의 숫자입니다. |
|
|
클러스터에서 노드당 실행 중인 Pod 숫자입니다. |
|
|
할당 가능한 리소스를 기준으로 노드에 할당할 수 있는 포드 수이며 이는 시스템 대몬(daemon) 예약 및 하드 제거 임곗값을 고려한 후 노드 용량의 나머지 부분으로 정의됩니다. |
|
|
용량에 따라 노드에 할당할 수 있는 포드 수입니다. |
|
|
노드 상태 조건 |
|
|
노드 상태 조건 |
|
|
노드 상태 조건 |
|
|
노드 상태 조건 |
|
|
노드 상태 조건 중 알 수 없는 상태가 있는지 여부를 나타냅니다. |
|
|
노드의 네트워크 인터페이스에서 수신한 후 삭제한 패킷 수입니다. |
|
|
전송될 예정이었으나 노드의 네트워크 인터페이스에서 삭제된 패킷 수입니다. |
Windows 또는 ROSA 클러스터에서는 사용할 수 없습니다. |
|
노드의 모든 I/O 작업에서 전송된 총 바이트 수입니다. |
Windows 또는 ROSA 클러스터에서는 사용할 수 없습니다. |
|
노드의 총 I/O 작업 횟수입니다. |
|
|
클러스터에서 Pod별로 예약된 CPU 용량입니다. 공식: 참고
|
|
|
Pod에서 사용 중인 CPU 단위의 비율입니다. 공식: |
|
|
포드 제한을 기준으로 포드에서 사용 중인 CPU 단위의 백분율입니다. 공식: |
|
|
포드에 예약된 메모리의 비율입니다. 공식: 참고
|
|
|
한 개 또는 여러 개의 Pod에서 현재 사용 중인 메모리의 비율입니다. 공식: |
|
|
포드 제한을 기준으로 포드에서 사용 중인 메모리의 백분율입니다. 포드의 컨테이너에 메모리 제한이 정의되지 않은 경우 이 지표는 표시되지 않습니다. 공식: |
|
|
Pod에서 네트워크를 통해 수신 중인 초당 바이트 수입니다. 공식: 참고
|
|
|
Pod에서 네트워크를 통해 전송 중인 초당 바이트 수입니다. 공식: 참고
|
|
|
포드에 대한 CPU 요청입니다. 공식: 참고
|
|
|
포드에 대한 메모리 요청량입니다. 공식: 참고
|
|
|
포드의 컨테이너에 대해 정의된 CPU 한도입니다. 포드의 컨테이너에 CPU 제한이 정의되지 않은 경우 이 지표는 표시되지 않습니다. 공식: 참고
|
|
|
포드의 컨테이너에 대해 정의된 메모리 한도입니다. 포드의 컨테이너에 메모리 제한이 정의되지 않은 경우 이 지표는 표시되지 않습니다. 공식: 참고
|
|
|
포드의 모든 컨테이너가 종료되었으며, 하나 이상의 컨테이너가 0이 아닌 상태로 종료되었거나 시스템에 의해 종료되었음을 나타냅니다. |
|
|
포드의 모든 컨테이너가 |
|
|
포드의 모든 컨테이너가 실행 중임을 나타냅니다. |
|
|
포드가 노드에 예약되었음을 나타냅니다. |
|
|
포드의 상태를 가져올 수 없음을 나타냅니다. |
|
|
클러스터에서 포드를 수락했지만 하나 이상의 컨테이너가 아직 준비되지 않았음을 나타냅니다. |
|
|
포드의 모든 컨테이너가 성공적으로 종료되었으며 다시 시작되지 않음을 나타냅니다. |
|
|
포드 사양에 정의된 컨테이너 수를 보고합니다. |
|
|
현재 |
|
|
포드에서 |
|
|
포드에서 |
|
|
포드에서 |
|
|
컨테이너가 반복적으로 시작에 실패하는 |
|
|
사유 |
|
|
컨테이너 생성 중 발생한 오류 때문에 사유 |
|
|
|
|
|
메모리 부족(OOM 종료)으로 인해 포드에서 |
|
|
컨테이너 시작 중 발생한 오류 때문에 사유 |
|
|
메모리 제한을 초과하여 포드가 종료되었음을 나타냅니다. 이 지표 는이 문제가 발생한 경우에만 표시됩니다. |
|
|
포드의 네트워크 인터페이스에서 수신된 후 삭제된 패킷 수입니다. |
|
|
전송될 예정이었으나 포드에서 삭제된 패킷 수입니다. |
|
|
포드에서 현재 사용 중인 메모리(바이트). |
|
|
포드에서 사용되는 CPU 단위 수. |
|
|
컨테이너에서 사용 중인 CPU 단위의 비율입니다. 공식: 참고
|
|
|
컨테이너 제한을 기준으로 컨테이너에서 사용 중인 CPU 단위의 비율입니다. 컨테이너에 CPU 제한이 정의되지 않은 경우 이 지표는 표시되지 않습니다. 공식: 참고
|
|
|
컨테이너에서 사용 중인 메모리 단위의 비율입니다. 공식: 참고
|
|
|
컨테이너 제한을 기준으로 컨테이너에서 사용 중인 메모리 단위의 비율입니다. 컨테이너에 메모리 제한이 정의되지 않은 경우 이 지표는 표시되지 않습니다. 공식: 참고
|
Windows에서는 제공되지 않습니다. |
|
컨테이너에서 발생한 메모리 할당 실패 횟수입니다. |
|
PodName, |
Pod의 컨테이너 재시작 총 횟수입니다. |
|
서비스,
|
클러스터에서 단일 또는 복수의 서비스를 실행하는 Pod의 숫자입니다. |
|
|
워크로드 사양에 정의된 워크로드에 필요한 포드 수입니다. |
|
|
준비 상태에 도달한 워크로드의 포드 수입니다. |
|
|
워크로드에 사용할 수 있는 포드 수입니다. 워크로드 사양에 정의된 대로 |
|
|
사용할 수 없는 워크로드의 포드 수입니다. 워크로드 사양에 정의된 대로 |
|
|
마지막 확인 당시 etcd에 저장된 객체 수입니다. |
|
|
물리적으로 할당된 스토리지 데이터베이스 파일의 총 크기(바이트)입니다. 이 지표는 실험용이며 Kubernetes의 향후 릴리스에서 변경될 수도 있습니다. 단위: 바이트 유용한 통계: 합계, 평균, 최소, 최대 |
|
|
Kubernetes API 서버에 대한 총 API 요청 수입니다. |
|
|
Kubernetes API 서버에 대한 API 요청의 응답 지연 시간입니다. |
|
|
승인 컨트롤러 지연 시간(초)입니다. 승인 컨트롤러는 Kubernetes API 서버에 대한 요청을 가로채는 코드입니다. |
|
|
Kubernetes API 서버를 호출하는 클라이언트가 경험한 응답 지연 시간입니다. 이 지표는 실험용이며 Kubernetes의 향후 릴리스에서 변경될 수 있습니다. |
|
|
클라이언트가 Kubernetes API 서버에 요청한 총 API 요청 수입니다. 이 지표는 실험용이며 Kubernetes의 향후 릴리스에서 변경될 수 있습니다. |
|
|
Etcd에 대한 API 호출의 응답 지연 시간입니다. 이 지표는 실험용이며 Kubernetes의 향후 릴리스에서 변경될 수 있습니다. |
|
|
물리적으로 할당된 스토리지 데이터베이스 파일의 크기(바이트)입니다. 이 지표는 실험용이며 Kubernetes의 향후 릴리스에서 변경될 수 있습니다. |
|
|
Kubernetes API 서버에 대한 활성 장기 실행 요청 수입니다. |
|
|
Kubernetes API 서버에서 처리 중인 요청 수입니다. |
|
|
승인 웹후크 지연 시간(초)입니다. 승인 웹후크는 승인 요청을 수신하고 이를 이용해 무언가를 수행하는 HTTP 콜백입니다. |
|
|
승인 하위 단계 지연 시간(초)입니다. |
|
|
Kubernetes API 서버에서 더 이상 사용되지 않는 API에 대한 요청 수입니다. |
|
|
Kubernetes API 서버에 대한 요청 중 5XX HTTP 응답 코드로 응답한 요청 수입니다. |
|
|
Etc의 객체를 나열하는 응답 지연 시간. 이 지표는 실험용이며 Kubernetes의 향후 릴리스에서 변경될 수 있습니다. |
|
|
API 우선순위 및 공정성 하위 시스템에서 현재 실행 중인 요청이 사용하는 스레드 수. |
|
|
API 우선순위 및 공정성 하위 시스템에서 거부한 요청 수입니다. 이 지표는 실험용이며 Kubernetes의 향후 릴리스에서 변경될 수 있습니다. |
|
|
Kubernetes API 서버에서 대기열에 있는 요청 수입니다. 이 지표는 실험용이며 Kubernetes의 향후 릴리스에서 변경될 수 있습니다. |
NVIDIA GPU 지표
Amazon EKS의 향상된 관찰성을 사용하여 CloudWatch 에이전트 버전 1.300034.0
부터 Container Insights는 기본적으로 EKS 워크로드에서 NVIDIA GPU 지표를 수집합니다. CloudWatch 에이전트를 설치할 때는 CloudWatch Observability EKS 추가 기능 버전 v1.3.0-eksbuild.1
이상을 사용해야 합니다. 자세한 내용은 Amazon CloudWatch Observability EKS 추가 기능 또는 헬름 차트를 사용하여 CloudWatch 에이전트 설치 섹션을 참조하세요. 이렇게 수집된 NVIDIA GPU 지표는 이 섹션의 표에 나열되어 있습니다.
Container Insights로 NVIDIA GPU 지표를 수집하려면 다음 사전 요구 사항을 충족해야 합니다.
Amazon CloudWatch Observability EKS 추가 기능 버전
v1.3.0-eksbuild.1
이상을 사용하여 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 사용해야 합니다.NVIDIA 컨테이너 툴킷
은 클러스터의 노드에 설치해야 합니다. 예를 들어 Amazon EKS 최적화된 가속화 AMI는 필수 구성 요소로 구축됩니다.
CloudWatch 에이전트 구성 파일 처음의 accelerated_compute_metrics
옵션을 false
로 설정하여 NVIDIA GPU 지표 수집을 옵트아웃할 수 있습니다. 자세한 내용과 옵트아웃 예시는 (선택 사항) 추가 구성 단원을 참조하십시오.
메트릭 이름 | 측정기준 | 설명 |
---|---|---|
|
|
컨테이너에 할당된 GPU의 총 프레임 버퍼 바이트 규모. |
|
|
컨테이너에 할당된 GPU에서 사용된 프레임 버퍼의 바이트. |
|
|
컨테이너에 할당된 GPU의 프레임 버퍼 사용률. |
|
|
컨테이너에 할당된 GPU의 전력 와트 사용량. |
|
|
컨테이너에 할당된 GPU의 섭씨 온도. |
|
|
컨테이너에 할당된 GPU의 활용률. |
|
|
노드에 할당된 GPU의 총 프레임 버퍼 바이트 규모. |
|
|
노드에 할당된 GPU에서 사용된 프레임 버퍼의 바이트. |
|
|
노드에 할당된 GPU의 프레임 버퍼 사용률. |
|
|
노드에 할당된 GPU의 전력 와트 사용량. |
|
|
노드에 할당된 GPU의 섭씨 온도. |
|
|
노드에 할당된 GPU의 활용률. |
|
|
포드에 할당된 GPU의 총 프레임 버퍼 바이트 규모. |
|
|
포드에 할당된 GPU에서 사용된 프레임 버퍼의 바이트. |
|
|
포드에 할당된 GPU의 프레임 버퍼 사용률. |
|
|
포드에 할당된 GPU의 전력 와트 사용량. |
|
|
포드에 할당된 GPU 온도(섭씨). |
|
|
포드에 할당된 GPU의 활용률. |
AWS Trainium 및 AWS Inferentia의 AWS Neuron 지표
CloudWatch 에이전트의 1.300036.0
버전부터 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights는 기본적으로 AWS Trainium 및 AWS Inferentia 액셀러레이터로부터 가속화된 컴퓨팅 지표를 수집합니다. CloudWatch 에이전트를 설치할 때는 CloudWatch Observability EKS 추가 기능 버전 v1.5.0-eksbuild.1
이상을 사용해야 합니다. 추가 기능에 대한 자세한 내용은 Amazon CloudWatch Observability EKS 추가 기능 또는 헬름 차트를 사용하여 CloudWatch 에이전트 설치 섹션을 참조하세요. AWS Trainium에 대한 자세한 내용은 AWS Trainium
Container Insights로 AWS Neuron 지표를 수집하려면 다음 사전 조건을 충족해야 합니다.
Amazon CloudWatch Observability EKS 추가 기능 버전
v1.5.0-eksbuild.1
이상을 사용하여 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 사용해야 합니다.Neuron 드라이버
는 클러스터의 노드에 설치해야 합니다. Neuron 디바이스 플러그인
은 클러스터에 설치해야 합니다. 예를 들어 Amazon EKS 최적화된 가속화 AMI는 필수 구성 요소로 구축됩니다.
이렇게 수집된 지표는 이 섹션의 표에 나열되어 있습니다. 지표는 AWS Trainium, AWS Inferentia, AWS Inferentia2에 대해 수집됩니다.
CloudWatch 에이전트는 Neuron 모니터
메트릭 이름 | 측정기준 | 설명 |
---|---|---|
|
|
컨테이너에 할당된 NeuronCore의 캡처된 기간 동안의 NeuronCore 사용률. 단위: 백분율 |
|
|
NeuronCore의 교육 도중 컨테이너에 할당된 상수(또는 추론 중 가중치)에 사용되는 디바이스 메모리의 양입니다. 단위: 바이트 |
|
|
컨테이너에 할당된 NeuronCore가 모델의 실행 코드에 사용하는 디바이스 메모리의 양입니다. 단위: 바이트 |
|
|
컨테이너에 할당된 NeuronCore가 모델의 공유되는 스크래치패드에 사용하는 디바이스 메모리의 양입니다. 이 메모리 영역은 모델용입니다. 단위: 바이트 |
|
|
컨테이너에 할당된 NeuronCore에서 Neuron 런타임에 사용하는 디바이스 메모리의 양입니다. 단위: 바이트 |
|
|
컨테이너에 할당된 NeuronCore에서 텐서에 사용하는 디바이스 메모리의 양입니다. 단위: 바이트 |
|
|
컨테이너에 할당된 NeuronCore에서 사용하는 총 메모리의 양입니다. 단위: 바이트 |
|
|
노드에 있는 Neuron 디바이스의 온칩 SRAM 및 디바이스 메모리에 대해 수정 및 수정되지 않은 ECC 이벤트의 수입니다. 단위: 수 |
|
|
포드에 할당된 NeuronCore의 캡처된 기간 동안의 NeuronCore 사용률. 단위: 백분율 |
|
|
NeuronCore의 교육 도중 포드에 할당된 상수(또는 추론 중 가중치)에 사용되는 디바이스 메모리의 양입니다. 단위: 바이트 |
|
|
포드에 할당된 NeuronCore가 모델의 실행 코드에 사용하는 디바이스 메모리의 양입니다. 단위: 바이트 |
|
|
포드에 할당된 NeuronCore가 모델의 공유되는 스크래치패드에 사용하는 디바이스 메모리의 양입니다. 이 메모리 영역은 모델용입니다. 단위: 바이트 |
|
|
포드에 할당된 NeuronCore에서 Neuron 런타임에 사용하는 디바이스 메모리의 양입니다. 단위: 바이트 |
|
|
포드에 할당된 NeuronCore에서 텐서에 사용하는 디바이스 메모리의 양입니다. 단위: 바이트 |
|
|
포드에 할당된 NeuronCore에서 사용하는 총 메모리의 양입니다. 단위: 바이트 |
|
|
포드에 할당된 Neuron 디바이스의 온칩 SRAM 및 디바이스 메모리에 대해 수정 및 수정되지 않은 ECC 이벤트의 수입니다. 단위: 바이트 |
|
|
노드에 할당된 NeuronCore의 캡처된 기간 동안의 NeuronCore 사용률. 단위: 백분율 |
|
|
NeuronCore의 교육 도중 노드에 할당된 상수(또는 추론 중 가중치)에 사용되는 디바이스 메모리의 양입니다. 단위: 바이트 |
|
|
노드에 할당된 NeuronCore가 모델의 실행 코드에 사용하는 디바이스 메모리의 양입니다. 단위: 바이트 |
|
|
노드에 할당된 NeuronCore가 모델의 공유되는 스크래치패드에 사용하는 디바이스 메모리의 양입니다. 이 메모리 영역은 모델용입니다. 단위: 바이트 |
|
|
노드에 할당된 NeuronCore에서 Neuron 런타임에 사용하는 디바이스 메모리의 양입니다. 단위: 바이트 |
|
|
노드에 할당된 NeuronCore에서 텐서에 사용하는 디바이스 메모리의 양입니다. 단위: 바이트 |
|
|
노드에 할당된 NeuronCore에서 사용하는 총 메모리의 양입니다. 단위: 바이트 |
|
|
노드의 총 실행 오류 수입니다. 이 값은 CloudWatch 에이전트에서 단위: 수 |
|
|
노드의 Neuron 디바이스 메모리 사용량(바이트)의 총합입니다. 단위: 바이트 |
|
|
Neuron 런타임으로 측정한 노드에서의 실행 지연 시간(초)입니다. 단위: 초 |
|
|
노드에 있는 Neuron 디바이스의 온칩 SRAM 및 디바이스 메모리에 대해 수정 및 수정되지 않은 ECC 이벤트의 수입니다. 단위: 수 |
AWS Elastic Fabric Adapter(EFA) 지표
CloudWatch 에이전트 1.300037.0
버전부터 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights 는 Linux 인스턴스의 Amazon EKS 클러스터로부터 AWS Elastic Fabric Adapter(EFA) 지표를 수집합니다. CloudWatch 에이전트를 설치할 때는 CloudWatch Observability EKS 추가 기능 버전 v1.5.2-eksbuild.1
이상을 사용해야 합니다. 추가 기능에 대한 자세한 내용은 Amazon CloudWatch Observability EKS 추가 기능 또는 헬름 차트를 사용하여 CloudWatch 에이전트 설치 섹션을 참조하세요. AWS Elastic Fabric Adapter에 대한 자세한 내용은 Elastic Fabric Adapter
Container Insights로 AWS Elastic Fabric Adapter 지표를 수집하려면 다음 사전 조건을 충족해야 합니다.
Amazon CloudWatch Observability EKS 추가 기능 버전
v1.5.2-eksbuild.1
이상을 사용하여 Amazon EKS의 향상된 관찰 기능을 갖춘 Container Insights를 사용해야 합니다.EFA 디바이스 플러그인은 클러스터에 설치해야 합니다. 자세한 내용은 GitHub의 aws-efa-k8s-device-plugin
을 참조하세요.
수집된 지표 목록은 다음 표에 나와 있습니다.
메트릭 이름 | 측정기준 | 설명 |
---|---|---|
|
|
컨테이너에 할당된 EFA 디바이스에서 수신하는 초당 바이트 수입니다. 단위: 바이트/초 |
|
|
컨테이너에 할당된 EFA 디바이스에서 송신하는 초당 바이트 수입니다. 단위: 바이트/초 |
|
|
컨테이너에 할당된 EFA 디바이스에서 수신 후 삭제된 패킷 수입니다. 단위: 개수/초 |
|
|
컨테이너에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 읽기 작업을 사용하여 수신하는 초당 바이트 수입니다. 단위: 바이트/초 |
|
|
컨테이너에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 읽기 작업을 사용하여 송신하는 초당 바이트 수입니다. 단위: 바이트/초 |
|
|
컨테이너에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 쓰기 작업 도중 수신하는 초당 바이트 수입니다. 단위: 바이트/초 |
|
|
포드에 할당된 EFA 디바이스에서 수신하는 초당 바이트 수입니다. 단위: 바이트/초 |
|
|
포드에 할당된 EFA 디바이스에서 송신하는 초당 바이트 수입니다. 단위: 바이트/초 |
|
|
포드에 할당된 EFA 디바이스에서 수신 후 삭제된 패킷 수입니다. 단위: 개수/초 |
|
|
포드에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 읽기 작업을 사용하여 수신하는 초당 바이트 수입니다. 단위: 바이트/초 |
|
|
포드에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 읽기 작업을 사용하여 송신하는 초당 바이트 수입니다. 단위: 바이트/초 |
|
|
포드에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 쓰기 작업 도중 수신하는 초당 바이트 수입니다. 단위: 바이트/초 |
|
|
노드에 할당된 EFA 디바이스에서 수신하는 초당 바이트 수입니다. 단위: 바이트/초 |
|
|
노드에 할당된 EFA 디바이스에서 송신하는 초당 바이트 수입니다. 단위: 바이트/초 |
|
|
노드에 할당된 EFA 디바이스에서 수신 후 삭제된 패킷 수입니다. 단위: 개수/초 |
|
|
노드에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 읽기 작업을 사용하여 수신하는 초당 바이트 수입니다. 단위: 바이트/초 |
|
|
포드에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 읽기 작업을 사용하여 송신하는 초당 바이트 수입니다. 단위: 바이트/초 |
|
|
노드에 할당된 EFA 디바이스에서 원격 직접 메모리 액세스 쓰기 작업 도중 수신하는 초당 바이트 수입니다. 단위: 바이트/초 |
Amazon SageMaker AI HyperPod 지표
CloudWatch Observability EKS 애드온의 버전 v2.0.1-eksbuild.1
부터 Amazon EKS에 대한 향상된 관찰성을 갖춘 Container Insights는 Amazon EKS 클러스터에서 Amazon SageMaker AI HyperPod 지표를 자동으로 수집합니다. 추가 기능에 대한 자세한 내용은 Amazon CloudWatch Observability EKS 추가 기능 또는 헬름 차트를 사용하여 CloudWatch 에이전트 설치 섹션을 참조하세요. Amazon SageMaker AI HyperPod에 대한 자세한 내용은 Amazon SageMaker AI HyperPod를 참조하세요.
수집된 지표 목록은 다음 표에 나와 있습니다.
메트릭 이름 | 측정기준 | 설명 |
---|---|---|
|
|
Amazon SageMaker AI HyperPod에 의해 노드가 단위: 수 |
|
|
Amazon SageMaker AI HyperPod에 의해 노드가 단위: 수 |
|
|
HyperPod에 의해 노드가 자동 노드 복구가 활성화된 경우 Amazon SageMaker AI HyperPod에 의해 노드가 자동으로 교체됩니다. 단위: 수 |
|
|
Amazon SageMaker AI HyperPod에 의해 노드가 자동 노드 복구가 활성화된 경우 Amazon SageMaker AI HyperPod에 의해 노드가 자동으로 재부팅됩니다. 단위: 수 |
Amazon EBS NVMe 드라이버 지표
CloudWatch 에이전트 1.300056.0
버전부터 Amazon EKS의 향상된 관찰성을 갖춘 Container Insights는 Linux 인스턴스의 Amazon EKS 클러스터로부터 Amazon EBS NVMe 드라이버 지표를 수집합니다. CloudWatch 에이전트를 설치할 때는 CloudWatch Observability Amazon EKS 추가 기능 버전 4.1.0
이상을 사용해야 합니다. 추가 기능에 대한 자세한 내용은 Amazon CloudWatch Observability EKS 추가 기능 또는 헬름 차트를 사용하여 CloudWatch 에이전트 설치 섹션을 참조하세요. Amazon EBS에 대한 자세한 내용은 Amazon EBS 세부 성능 통계를 참조하세요.
Container Insights로 Amazon EBS NVMe 드라이버 지표를 수집하려면 다음 사전 요구 사항을 충족해야 합니다.
CloudWatch Observability Amazon EKS 추가 기능 버전
4.1.0
이상을 사용하여 Amazon EKS의 향상된 관찰성을 갖춘 Container Insights를 사용해야 합니다.지표가 활성화된 클러스터에 EBS CSI 드라이버
1.42.0
추가 기능 또는 헬름 차트를 설치해야 합니다.Amazon EBS CSI 드라이버 추가 기능을 사용할 때 지표를 활성화하려면 추가 기능을 생성하거나 업데이트할 때 다음 옵션을 사용합니다.
--configuration-values '{ "node": { "enableMetrics": true } }'
헬름 차트를 사용하는 경우 지표를 활성화하려면 추가 기능을 생성하거나 업데이트할 때 다음 옵션을 사용합니다.
--set node.enableMetrics=true
수집된 지표 목록은 다음 표에 나와 있습니다.
메트릭 이름 | 측정기준 | 설명 |
---|---|---|
|
|
완료된 총 읽기 작업 수입니다. |
|
|
완료된 총 쓰기 작업 수입니다. |
|
|
전송된 총 읽기 바이트 수입니다. |
|
|
전송된 총 쓰기 바이트 수입니다. |
|
|
모든 완료된 읽기 작업에 소요된 총 시간(마이크로초)입니다. |
|
|
모든 완료된 쓰기 작업에 소요된 총 시간(마이크로초)입니다. |
|
|
IOPS 수요가 볼륨의 프로비저닝된 IOPS 성능을 초과한 총 시간(마이크로초)입니다. |
|
|
처리량 수요가 볼륨의 프로비저닝된 처리량 성능을 초과한 총 시간(마이크로초)입니다. |
|
|
EBS 볼륨이 연결된 Amazon EC2 인스턴스의 최대 IOPS 성능을 초과한 총 시간(마이크로초)입니다. |
|
|
EBS 볼륨이 연결된 Amazon EC2 인스턴스의 최대 처리량 성능을 초과한 총 시간(마이크로초)입니다. |
|
|
완료되기를 기다리는 읽기 및 쓰기 작업의 수입니다. |