Amazon EKS e Kubernetes Container Insights con metriche di osservabilità avanzate - Amazon CloudWatch

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Amazon EKS e Kubernetes Container Insights con metriche di osservabilità avanzate

Le tabelle seguenti elencano le metriche e le dimensioni raccolte da Container Insights con osservabilità avanzata per Amazon EKS e Kubernetes. Tali parametri si trovano nello spazio dei nomi ContainerInsights. Per ulteriori informazioni, consulta Metriche.

Se non vedi alcun Container Insights con metriche di osservabilità avanzate nella tua console, assicurati di aver completato la configurazione di Container Insights con osservabilità migliorata. Le metriche non vengono visualizzate prima che Container Insights con osservabilità migliorata sia stato impostato completamente. Per ulteriori informazioni, consulta Configurazione di Container Insights.

Se utilizzi la versione 1.5.0 o successiva del componente aggiuntivo Amazon EKS o la versione 1.300035.0 dell' CloudWatch agente, la maggior parte delle metriche elencate nella tabella seguente viene raccolta per i nodi Linux e Windows. Consulta la colonna Metric Name della tabella per vedere quali metriche non vengono raccolte per Windows.

Con la versione precedente di Container Insights, che fornisce metriche aggregate a livello di Cluster e Servizio, le metriche vengono addebitate come metriche personalizzate. Con Approfondimenti sui container con osservabilità migliorata per Amazon EKS, i parametri di Approfondimenti sui container vengono addebitati per osservazione anziché per parametro archiviato o log importato. Per ulteriori informazioni sui CloudWatch prezzi, consulta la pagina CloudWatchdei prezzi di Amazon.

Nota

In Windows, i parametri di rete come pod_network_rx_bytes e non pod_network_tx_bytes vengono raccolti per i contenitori dei processi host.

Nei cluster RedHat OpenShift on AWS (ROSA), le metriche diskio come node_diskio_io_serviced_total e non vengono raccolte. node_diskio_io_service_bytes_total

Nome parametro Dimensioni Descrizione

cluster_failed_node_count

ClusterName

Il numero di nodi di lavoro non riusciti nel cluster. Un nodo è considerato non riuscito se risente delle condizioni del nodo. Per ulteriori informazioni, consulta Conditions (Condizioni) nella documentazione Kubernetes.

cluster_node_count

ClusterName

Il numero totale di nodi di lavoro nel cluster.

namespace_number_of_running_pods

Namespace ClusterName

ClusterName

Il numero di pod in esecuzione per spazio dei nomi nella risorsa specificata dalle dimensioni in uso.

node_cpu_limit

ClusterName

ClusterName, InstanceId, NodeName

Il numero massimo di unità di CPU che può essere assegnato a un singolo nodo nel cluster corrente.

node_cpu_reserved_capacity

NodeName, ClusterName, InstanceId

ClusterName

La percentuale di unità CPU riservate per i componenti del nodo, ad esempio kubelet, kube-proxy e Docker.

Formula: node_cpu_request / node_cpu_limit

Nota

node_cpu_request non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta Campi rilevanti negli eventi di log delle prestazioni per Amazon EKS e Kubernetes.

node_cpu_usage_total

ClusterName

ClusterName, InstanceId, NodeName

Il numero di unità di CPU in uso sui nodi del cluster.

node_cpu_utilization

NodeName, ClusterName, InstanceId

ClusterName

La percentuale totale delle unità di CPU in uso sui nodi del cluster.

Formula: node_cpu_usage_total / node_cpu_limit

node_filesystem_utilization

NodeName, ClusterName, InstanceId

ClusterName

La percentuale totale della capacità del file system in uso sui nodi del cluster.

Formula: node_filesystem_usage / node_filesystem_capacity

Nota

node_filesystem_usage e node_filesystem_capacity non vengono riportati direttamente come parametri, ma sono campi nei log eventi delle prestazioni. Per ulteriori informazioni, consulta Campi rilevanti negli eventi di log delle prestazioni per Amazon EKS e Kubernetes.

node_memory_limit

ClusterName

ClusterName, InstanceId, NodeName

La quantità massima di memoria, espressa in byte, che può essere assegnata a un singolo nodo nel cluster corrente.

node_filesystem_inodes

Non è disponibile su Windows.

ClusterName

ClusterName, InstanceId, NodeName

Il numero totale di inode (utilizzati e inutilizzati) su un nodo.

node_filesystem_inodes_free

Non è disponibile su Windows.

ClusterName

ClusterName, InstanceId, NodeName

Il numero di inode inutilizzati su un nodo.

node_gpu_limit

ClusterName

ClusterName, InstanceId, NodeName

Il numero totale di GPU disponibili sul nodo.

node_gpu_usage_total

ClusterName

ClusterName, InstanceId, NodeName

Il numero di GPU utilizzate dai pod in esecuzione sul nodo.

node_gpu_reserved_capacity

ClusterName

ClusterName, InstanceId, NodeName

node_memory_reserved_capacity

NodeName, ClusterName, InstanceId

ClusterName

La percentuale di memoria attualmente utilizzata sui nodi del cluster.

Formula: node_memory_request / node_memory_limit

Nota

node_memory_request non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta Campi rilevanti negli eventi di log delle prestazioni per Amazon EKS e Kubernetes.

node_memory_utilization

NodeName, ClusterName, InstanceId

ClusterName

La percentuale di memoria attualmente utilizzata dal nodo o dai nodi. È la percentuale di utilizzo della memoria del nodo rispetto alla limitazione di memoria del nodo.

Formula: node_memory_working_set / node_memory_limit.

node_memory_working_set

ClusterName

ClusterName, InstanceId, NodeName

La quantità di memoria, espressa in byte, in uso nel working set dei nodi del cluster.

node_network_total_bytes

NodeName, ClusterName, InstanceId

ClusterName

Il numero totale di byte al secondo trasmessi e ricevuti tramite la rete per nodo in un cluster.

Formula: node_network_rx_bytes + node_network_tx_bytes

Nota

node_network_rx_bytes e node_network_tx_bytes non vengono riportati direttamente come parametri, ma sono campi nei log eventi delle prestazioni. Per ulteriori informazioni, consulta Campi rilevanti negli eventi di log delle prestazioni per Amazon EKS e Kubernetes.

node_number_of_running_containers

NodeName, ClusterName, InstanceId

ClusterName

Il numero di container in esecuzione per nodo in un cluster.

node_number_of_running_pods

NodeName, ClusterName, InstanceId

ClusterName

Il numero di pod in esecuzione per nodo in un cluster.

node_status_allocatable_pods

ClusterName

ClusterName, InstanceId, NodeName

Il numero di pod che è possibile assegnare a un nodo in base alle relative risorse allocabili, definito come la parte restante della capacità di un nodo dopo aver tenuto conto delle prenotazioni dei daemon di sistema e delle soglie di espulsione forzata.

node_status_capacity_pods

ClusterName

ClusterName, InstanceId, NodeName

Il numero di pod che possono essere assegnati a un nodo in base alla sua capacità.

node_status_condition_ready

ClusterName

ClusterName, InstanceId, NodeName

Indica se la condizione dello stato del nodo Ready è vera per EC2 i nodi Amazon.

node_status_condition_memory_pressure

ClusterName

ClusterName, InstanceId, NodeName

Indica se la condizione dello stato del nodo MemoryPressure è vera.

node_status_condition_pid_pressure

ClusterName

ClusterName, InstanceId, NodeName

Indica se la condizione dello stato del nodo PIDPressure è vera.

node_status_condition_disk_pressure

ClusterName

ClusterName, InstanceId, NodeName

Indica se la condizione dello stato del nodo OutOfDisk è vera.

node_status_condition_unknown

ClusterName

ClusterName, InstanceId, NodeName

Indica se una qualsiasi delle condizioni di stato del nodo è sconosciuta.

node_interface_network_rx_dropped

ClusterName

ClusterName, InstanceId, NodeName

Il numero di pacchetti ricevuti e successivamente annullati da questa interfaccia di rete sul nodo.

node_interface_network_tx_dropped

ClusterName

ClusterName, InstanceId, NodeName

Il numero di pacchetti che dovevano essere trasmessi ma che sono stati annullati da un'interfaccia di rete sul nodo.

node_diskio_io_service_bytes_total

Non è disponibile su Windows o sui cluster ROSA.

ClusterName

ClusterName, InstanceId, NodeName

Il numero totale di byte trasferiti da tutte le I/O operazioni sul nodo.

node_diskio_io_serviced_total

Non è disponibile su Windows o sui cluster ROSA.

ClusterName

ClusterName, InstanceId, NodeName

Il numero totale di I/O operazioni sul nodo.

pod_cpu_reserved_capacity

PodName, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, Service

La capacità della CPU riservata per pod in un cluster.

Formula: pod_cpu_request / node_cpu_limit

Nota

pod_cpu_request non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta Campi rilevanti negli eventi di log delle prestazioni per Amazon EKS e Kubernetes.

pod_cpu_utilization

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

La percentuale di unità CPU utilizzate dai pod.

Formula: pod_cpu_usage_total / node_cpu_limit

pod_cpu_utilization_over_pod_limit

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

La percentuale di unità CPU utilizzata dai pod relativa al limite di pod.

Formula: pod_cpu_usage_total / pod_cpu_limit

pod_memory_reserved_capacity

PodName, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, Service

La percentuale di memoria riservata per i pod.

Formula: pod_memory_request / node_memory_limit

Nota

pod_memory_request non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta Campi rilevanti negli eventi di log delle prestazioni per Amazon EKS e Kubernetes.

pod_memory_utilization

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

La percentuale di memoria attualmente utilizzata dal pod o dai pod.

Formula: pod_memory_working_set / node_memory_limit

pod_memory_utilization_over_pod_limit

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

La percentuale di memoria utilizzata dai pod relativa al limite di pod. Se uno qualsiasi dei container nel pod non ha un limite di memoria definito, questo parametro non viene visualizzato.

Formula: pod_memory_working_set / pod_memory_limit

pod_network_rx_bytes

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

Il numero di byte al secondo ricevuti sulla rete dal pod.

Formula: sum(pod_interface_network_rx_bytes)

Nota

pod_interface_network_rx_bytes non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta Campi rilevanti negli eventi di log delle prestazioni per Amazon EKS e Kubernetes.

pod_network_tx_bytes

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

Il numero di byte al secondo trasmessi sulla rete dal pod.

Formula: sum(pod_interface_network_tx_bytes)

Nota

pod_interface_network_tx_bytes non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta Campi rilevanti negli eventi di log delle prestazioni per Amazon EKS e Kubernetes.

pod_cpu_request

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Le richieste della CPU per il pod.

Formula: sum(container_cpu_request)

Nota

pod_cpu_request non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta Campi rilevanti negli eventi di log delle prestazioni per Amazon EKS e Kubernetes.

pod_memory_request

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Le richieste di memoria per il pod.

Formula: sum(container_memory_request)

Nota

pod_memory_request non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta Campi rilevanti negli eventi di log delle prestazioni per Amazon EKS e Kubernetes.

pod_cpu_limit

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Il limite di CPU definito per i container nel pod. Se uno qualsiasi dei container nel pod non ha un limite di CPU definito, questo parametro non viene visualizzato.

Formula: sum(container_cpu_limit)

Nota

pod_cpu_limit non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta Campi rilevanti negli eventi di log delle prestazioni per Amazon EKS e Kubernetes.

pod_memory_limit

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Il limite di memoria definito per i container nel pod. Se uno qualsiasi dei container nel pod non ha un limite di memoria definito, questo parametro non viene visualizzato.

Formula: sum(container_memory_limit)

Nota

pod_cpu_limit non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta Campi rilevanti negli eventi di log delle prestazioni per Amazon EKS e Kubernetes.

pod_status_failed

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica che tutti i container nel pod sono terminati e che almeno un container è terminato con uno stato diverso da zero o è stato terminato dal sistema.

pod_status_ready

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica che tutti i container nel pod sono pronti, dopo aver raggiunto la condizione ContainerReady.

pod_status_running

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica che tutti i container nel pod sono in esecuzione.

pod_status_scheduled

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica che il pod è stato pianificato su un nodo.

pod_status_unknown

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica che lo stato del pod non può essere ottenuto.

pod_status_pending

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica che il pod è stato accettato dal cluster ma uno o più container non sono ancora pronti.

pod_status_succeeded

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indica che tutti i container nel pod sono stati terminati correttamente e non verranno riavviati.

pod_number_of_containers

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Riporta il numero di container definito nella specifica del pod.

pod_number_of_running_containers

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Riporta il numero di container nel pod che si trovano attualmente nello stato Running.

pod_container_status_terminated

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Riporta il numero di container nel pod che si trovano nello stato Terminated.

pod_container_status_running

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Riporta il numero di container nel pod che si trovano nello stato Running.

pod_container_status_waiting

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Riporta il numero di container nel pod che si trovano nello stato Waiting.

pod_container_status_waiting_reason_crash_loop_back_off

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Riporta il numero di contenitori nel pod che sono in sospeso a causa di un CrashLoopBackOff errore, a causa del quale un contenitore non si avvia ripetutamente.

pod_container_status_waiting_reason_create_container_config_error

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Riporta il numero di contenitori nel contenitore che sono in sospeso con il motivo. CreateContainerConfigError Ciò è dovuto a un errore durante la creazione della configurazione del contenitore.

pod_container_status_waiting_reason_create_container_error

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Riporta il numero di contenitori nel contenitore che sono in sospeso con il motivo a CreateContainerError causa di un errore durante la creazione del contenitore.

pod_container_status_waiting_reason_image_pull_error

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Riporta il numero di contenitori nel contenitore che sono in sospeso a causa di ErrImagePullImagePullBackOff, o. InvalidImageName Queste situazioni sono dovute a un errore durante l'estrazione dell'immagine del contenitore.

pod_container_status_waiting_reason_oom_killed

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Riporta il numero di contenitori nel pod che si trovano nello Terminated stato

a causa dell'esaurimento della memoria (OOM ucciso).

pod_container_status_waiting_reason_start_error

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Riporta il numero di contenitori nel contenitore che sono in sospeso, il motivo è StartError dovuto a un errore durante l'avvio del contenitore.

pod_container_status_terminated_reason_oom_killed

ContainerName, FullPodName, PodName, Namespace, ClusterName

ContainerName, PodName, Namespace, ClusterName

ClusterName

Indica che un pod è stato chiuso per il superamento del limite di memoria. Questa metrica viene visualizzata solo quando si verifica questo problema.

pod_interface_network_rx_dropped

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Il numero di pacchetti ricevuti e successivamente annullati da un'interfaccia di rete per il pod.

pod_interface_network_tx_dropped

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Il numero di pacchetti che dovevano essere trasmessi ma che sono stati annullati per il pod.

pod_memory_working_set

ClusterName

ClusterName, Namespace, PodName

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

La memoria in byte attualmente utilizzata da un pod.

pod_cpu_usage_total

ClusterName

ClusterName, Namespace, PodName

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

Il numero di unità CPU utilizzate da un pod.

container_cpu_utilization

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

La percentuale di unità CPU utilizzate dal container.

Formula: container_cpu_usage_total / node_cpu_limit

Nota

container_cpu_utilization non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta Campi rilevanti negli eventi di log delle prestazioni per Amazon EKS e Kubernetes.

container_cpu_utilization_over_container_limit

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

La percentuale di unità CPU utilizzate dal container in rapporto al limite del container. Se il container non ha un limite di CPU definito, questo parametro non viene visualizzato.

Formula: container_cpu_usage_total / container_cpu_limit

Nota

container_cpu_utilization_over_container_limit non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta Campi rilevanti negli eventi di log delle prestazioni per Amazon EKS e Kubernetes.

container_memory_utilization

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

La percentuale di unità di memoria utilizzate dal container.

Formula: container_memory_working_set / node_memory_limit

Nota

container_memory_utilization non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta Campi rilevanti negli eventi di log delle prestazioni per Amazon EKS e Kubernetes.

container_memory_utilization_over_container_limit

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

La percentuale di unità di memoria utilizzate dal container in rapporto al limite del container. Se il container non ha un limite di memoria definito, questo parametro non viene visualizzato.

Formula: container_memory_working_set / container_memory_limit

Nota

container_memory_utilization_over_container_limit non viene riportato direttamente come parametro, ma è un campo nei log eventi delle prestazioni. Per ulteriori informazioni, consulta Campi rilevanti negli eventi di log delle prestazioni per Amazon EKS e Kubernetes.

container_memory_failures_total

Non è disponibile su Windows.

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

Il numero di errori di allocazione della memoria riscontrati dal container.

pod_number_of_container_restarts

PodName, Namespace, ClusterName

Il numero totale di riavvii del container in un pod.

service_number_of_running_pods

Service, Namespace, ClusterName

ClusterName

Il numero di pod che eseguono il servizio o i servizi nel cluster.

replicas_desired

ClusterName

PodName, Namespace, ClusterName

Il numero di pod desiderato per un carico di lavoro come definito nella specifica del carico di lavoro.

replicas_ready

ClusterName

PodName, Namespace, ClusterName

Il numero di pod per un carico di lavoro che hanno raggiunto lo stato pronto.

status_replicas_available

ClusterName

PodName, Namespace, ClusterName

Il numero di pod disponibili per un carico di lavoro. Un pod è disponibile quando è pronto per il tempo minReadySeconds definito nella specifica del carico di lavoro.

status_replicas_unavailable

ClusterName

PodName, Namespace, ClusterName

Il numero di pod non disponibili per un carico di lavoro. Un pod è disponibile quando è pronto per il tempo minReadySeconds definito nella specifica del carico di lavoro. I pod non sono disponibili se non soddisfano questo criterio.

apiserver_storage_objects

ClusterName

ClusterName, resource

Il numero di oggetti memorizzati in etcd al momento dell'ultimo controllo.

apiserver_storage_db_total_size_in_bytes

ClusterName

ClusterName, endpoint

Dimensione totale del file del database di archiviazione allocato fisicamente in byte. Questa metrica è sperimentale e potrebbe cambiare nelle future versioni di Kubernetes.

Unità: byte

Statistiche significative: somma, media, minima, massima

apiserver_request_total

ClusterName

ClusterName, code, verb

Il numero totale di richieste API al server API Kubernetes.

apiserver_request_duration_seconds

ClusterName

ClusterName, verb

Latenza di risposta per le richieste API al server API Kubernetes.

apiserver_admission_controller_admission_duration_seconds

ClusterName

ClusterName, operation

Latenza del controller di ammissione in secondi. Un controller di ammissione è un codice che intercetta le richieste al server API Kubernetes.

rest_client_request_duration_seconds

ClusterName

ClusterName, operation

Latenza di risposta riscontrata dai client che chiamano il server API Kubernetes. Questo parametro è sperimentale e potrebbe cambiare nelle future versioni di Kubernetes.

rest_client_requests_total

ClusterName

ClusterName, code, method

Il numero totale di richieste API al server API Kubernetes effettuate dai client. Questo parametro è sperimentale e potrebbe cambiare nelle future versioni di Kubernetes.

etcd_request_duration_seconds

ClusterName

ClusterName, operation

Latenza di risposta delle chiamate API a Etcd. Questo parametro è sperimentale e potrebbe cambiare nelle future versioni di Kubernetes.

apiserver_storage_size_bytes

ClusterName

ClusterName, endpoint

Dimensione del file del database di archiviazione allocato fisicamente, espressa in byte. Questo parametro è sperimentale e potrebbe cambiare nelle future versioni di Kubernetes.

apiserver_longrunning_requests

ClusterName

ClusterName, resource

Il numero di richieste attive di lunga durata al server API Kubernetes.

apiserver_current_inflight_requests

ClusterName

ClusterName, request_kind

Il numero di richieste che il server API Kubernetes sta elaborando.

apiserver_admission_webhook_admission_duration_seconds

ClusterName

ClusterName, name

Latenza del webhook di ammissione in secondi. I webhook di ammissione sono callback HTTP che ricevono le richieste di ammissione e le utilizzano a uno scopo.

apiserver_admission_step_admission_duration_seconds

ClusterName

ClusterName, operation

Latenza delle fasi secondarie di ammissione in secondi.

apiserver_requested_deprecated_apis

ClusterName

ClusterName, group

Numero di richieste da dichiarare obsolete APIs sul server dell'API Kubernetes.

apiserver_request_total_5xx

ClusterName

ClusterName, code, verb

Il numero di richieste al server API Kubernetes a cui è stata data risposta con un codice di risposta HTTP 5XX.

apiserver_storage_list_duration_seconds

ClusterName

ClusterName, resource

Latenza di risposta dell'elenco degli oggetti da Etc. Questo parametro è sperimentale e potrebbe cambiare nelle future versioni di Kubernetes.

apiserver_flowcontrol_request_concurrency_limit

ClusterName

ClusterName, priority_level

Il numero di thread utilizzati dalle richieste attualmente in esecuzione nel sottosistema API Priority and Fairness.

apiserver_flowcontrol_rejected_requests_total

ClusterName

ClusterName, reason

Il numero di richieste rifiutate dal sottosistema API Priority and Fairness. Questo parametro è sperimentale e potrebbe cambiare nelle future versioni di Kubernetes.

apiserver_current_inqueue_requests

ClusterName

ClusterName, request_kind

Il numero di richieste in coda messe in coda dal server API Kubernetes. Questo parametro è sperimentale e potrebbe cambiare nelle future versioni di Kubernetes.

Metriche della GPU NVIDIA

A partire dalla versione 1.300034.0 dell' CloudWatch agente, Container Insights con osservabilità migliorata per Amazon EKS raccoglie per impostazione predefinita le metriche delle GPU NVIDIA dai carichi di lavoro EKS. L' CloudWatch agente deve essere installato utilizzando la versione aggiuntiva CloudWatch Observability EKS o successiva. v1.3.0-eksbuild.1 Per ulteriori informazioni, consulta Installa l' CloudWatch agente con il componente aggiuntivo Amazon CloudWatch Observability EKS o il grafico Helm. Le metriche della GPU NVIDIA raccolte sono elencate nella tabella di questa sezione.

Affinché Container Insights raccolga i parametri della GPU NVIDIA, è necessario soddisfare i seguenti prerequisiti:

  • Devi utilizzare Container Insights con osservabilità migliorata per Amazon EKS, con la versione v1.3.0-eksbuild.1 aggiuntiva Amazon CloudWatch Observability EKS o successiva.

  • Il plug-in del dispositivo NVIDIA per Kubernetes deve essere installato nel cluster.

  • Il toolkit NVIDIA Container deve essere installato sui nodi del cluster. Ad esempio, gli Amazon EKS Optimized Accelerated AMIs sono costruiti con i componenti necessari.

Puoi scegliere di non raccogliere i parametri della GPU NVIDIA impostando l'accelerated_compute_metricsopzione nel file di configurazione dell'agente beginn su. CloudWatch false Per ulteriori informazioni e un esempio di configurazione di opt-out, consulta. (Facoltativo) Configurazione aggiuntiva

Nome parametro Dimensioni Descrizione

container_gpu_memory_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

La dimensione totale del frame buffer, in byte, sulle GPU allocate al contenitore.

container_gpu_memory_used

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

I byte del frame buffer utilizzati sulle GPU allocate al contenitore.

container_gpu_memory_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

La percentuale di frame buffer utilizzata delle GPU allocate al contenitore.

container_gpu_power_draw

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

Il consumo energetico in watt della o delle GPU allocate al contenitore.

container_gpu_temperature

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

La temperatura in gradi Celsius delle GPU allocate al contenitore.

container_gpu_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

La percentuale di utilizzo delle GPU allocate al contenitore.

node_gpu_memory_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

La dimensione totale del frame buffer, in byte, sulle GPU allocate al nodo.

node_gpu_memory_used

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

I byte del frame buffer utilizzati sulle GPU allocate al nodo.

node_gpu_memory_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

La percentuale di frame buffer utilizzata sulle GPU allocate al nodo.

node_gpu_power_draw

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

Il consumo energetico in watt delle GPU allocate al nodo.

node_gpu_temperature

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

La temperatura in gradi Celsius delle GPU allocate al nodo.

node_gpu_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

La percentuale di utilizzo delle GPU allocate al nodo.

pod_gpu_memory_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

La dimensione totale del frame buffer, in byte, sulle GPU allocate al pod.

pod_gpu_memory_used

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

I byte del frame buffer utilizzati sulle GPU allocate al pod.

pod_gpu_memory_utilization

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

La percentuale di frame buffer utilizzata delle GPU allocate al pod.

pod_gpu_power_draw

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

Il consumo energetico in watt della o delle GPU allocate al pod.

pod_gpu_temperature

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

La temperatura in gradi Celsius delle GPU assegnate al pod.

pod_gpu_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

La percentuale di utilizzo delle GPU allocate al pod.

AWS Metriche Neuron per Trainium e Inferentia AWSAWS

A partire dalla versione 1.300036.0 dell' CloudWatch agente, Container Insights con osservabilità migliorata per Amazon EKS raccoglie per impostazione predefinita i parametri di elaborazione accelerata dagli AWS acceleratori Trainium e AWS Inferentia. L' CloudWatch agente deve essere installato utilizzando la versione aggiuntiva Observability EKS o successiva. CloudWatch v1.5.0-eksbuild.1 Per ulteriori informazioni sul componente aggiuntivo, vedere. Installa l' CloudWatch agente con il componente aggiuntivo Amazon CloudWatch Observability EKS o il grafico Helm Per ulteriori informazioni su AWS Trainium, vedere AWS Trainium. Per ulteriori informazioni su AWS Inferentia, vedere Inferentia.AWS

Affinché Container Insights raccolga le metriche di AWS Neuron, è necessario soddisfare i seguenti prerequisiti:

  • Devi utilizzare Container Insights con osservabilità migliorata per Amazon EKS, con la versione v1.5.0-eksbuild.1 aggiuntiva Amazon CloudWatch Observability EKS o successiva.

  • Il driver Neuron deve essere installato sui nodi del cluster.

  • Il plug-in del dispositivo Neuron deve essere installato sul cluster. Ad esempio, gli Amazon EKS Optimized Accelerated AMIs sono costruiti con i componenti necessari.

Le metriche raccolte sono elencate nella tabella di questa sezione. Le metriche vengono raccolte per AWS Trainium, AWS Inferentia e Inferentia2. AWS

L' CloudWatch agente raccoglie queste metriche dal monitor Neuron ed esegue la necessaria correlazione delle risorse Kubernetes per fornire le metriche a livello di pod e container

Nome parametro Dimensioni Descrizione

container_neuroncore_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

NeuronCore utilizzo, durante il periodo di acquisizione, del materiale allocato al contenitore. NeuronCore

Unità: percentuale

container_neuroncore_memory_usage_constants

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La quantità di memoria del dispositivo utilizzata per le costanti durante l'addestramento da parte del NeuronCore che viene allocata al contenitore (o i pesi durante l'inferenza).

Unità: byte

container_neuroncore_memory_usage_model_code

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La quantità di memoria del dispositivo utilizzata per il codice eseguibile dei modelli da NeuronCore che viene allocata al contenitore.

Unità: byte

container_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La quantità di memoria del dispositivo utilizzata per lo scratchpad condiviso dai modelli dal NeuronCore che viene allocata al contenitore. Questa area di memoria è riservata ai modelli.

Unità: byte

container_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La quantità di memoria del dispositivo utilizzata per il runtime Neuron da quella NeuronCore allocata al contenitore.

Unità: byte

container_neuroncore_memory_usage_tensors

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La quantità di memoria del dispositivo utilizzata per i tensori da quella NeuronCore allocata al contenitore.

Unità: byte

container_neuroncore_memory_usage_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La quantità totale di memoria utilizzata dall' NeuronCore allocato al contenitore.

Unità: byte

container_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice

Il numero di eventi ECC corretti e non corretti per la SRAM sul chip e la memoria del dispositivo Neuron sul nodo.

Unità: numero

pod_neuroncore_utilization

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

L' NeuronCore utilizzo durante il periodo di acquisizione del materiale allocato al pod. NeuronCore

Unità: percentuale

pod_neuroncore_memory_usage_constants

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La quantità di memoria del dispositivo utilizzata per le costanti durante l'addestramento da the NeuronCore che viene allocata al pod (o i pesi durante l'inferenza).

Unità: byte

pod_neuroncore_memory_usage_model_code

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La quantità di memoria del dispositivo utilizzata per il codice eseguibile dei modelli da NeuronCore che viene allocata al pod.

Unità: byte

pod_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La quantità di memoria del dispositivo utilizzata per lo scratchpad condiviso dai modelli dal NeuronCore che viene allocata al pod. Questa area di memoria è riservata ai modelli.

Unità: byte

pod_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La quantità di memoria del dispositivo utilizzata per il runtime di Neuron dall'area NeuronCore allocata al pod.

Unità: byte

pod_neuroncore_memory_usage_tensors

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La quantità di memoria del dispositivo utilizzata per i tensori da quella NeuronCore allocata al pod.

Unità: byte

pod_neuroncore_memory_usage_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La quantità totale di memoria utilizzata dall' NeuronCore allocazione al pod.

Unità: byte

pod_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice

Il numero di eventi ECC corretti e non corretti per la SRAM sul chip e la memoria del dispositivo Neuron allocati a un pod.

Unità: byte

node_neuroncore_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

L' NeuronCore utilizzo durante il periodo di acquisizione dell'allocazione al nodo. NeuronCore

Unità: percentuale

node_neuroncore_memory_usage_constants

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La quantità di memoria del dispositivo utilizzata per le costanti durante l'addestramento da the NeuronCore che viene allocata al nodo (o i pesi durante l'inferenza).

Unità: byte

node_neuroncore_memory_usage_model_code

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La quantità di memoria del dispositivo utilizzata per il codice eseguibile dei modelli da NeuronCore che viene allocata al nodo.

Unità: byte

node_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La quantità di memoria del dispositivo utilizzata per lo scratchpad condiviso dai modelli dal NeuronCore che viene allocata al nodo. Si tratta di un'area di memoria riservata ai modelli.

Unità: byte

node_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La quantità di memoria del dispositivo utilizzata per il runtime di Neuron da NeuronCore che viene allocata al nodo.

Unità: byte

node_neuroncore_memory_usage_tensors

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La quantità di memoria del dispositivo utilizzata per i tensori da NeuronCore that viene allocata al nodo.

Unità: byte

node_neuroncore_memory_usage_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La quantità totale di memoria utilizzata da NeuronCore that viene allocata al nodo.

Unità: byte

node_neuron_execution_errors_total

ClusterName

ClusterName, InstanceId, NodeName

Il numero totale di errori di esecuzione sul nodo. Viene calcolato dall' CloudWatch agente aggregando gli errori dei seguenti tipi:generic,, numericaltransient, modelruntime, e hardware

Unità: numero

node_neurondevice_runtime_memory_used_bytes

ClusterName

ClusterName, InstanceId, NodeName

L'utilizzo totale della memoria del dispositivo Neuron in byte sul nodo.

Unità: byte

node_neuron_execution_latency

ClusterName

ClusterName, InstanceId, NodeName

In secondi, la latenza per un'esecuzione sul nodo misurata dal runtime di Neuron.

Unità: secondi

node_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, NodeName, NeuronDevice

Il numero di eventi ECC corretti e non corretti per la SRAM su chip e la memoria del dispositivo Neuron sul nodo.

Unità: numero

AWS Metriche Elastic Fabric Adapter (EFA)

A partire dalla versione 1.300037.0 dell' CloudWatch agente, Container Insights con osservabilità migliorata per Amazon EKS raccoglie i parametri AWS Elastic Fabric Adapter (EFA) dai cluster Amazon EKS su istanze Linux. L' CloudWatch agente deve essere installato utilizzando la versione aggiuntiva CloudWatch Observability EKS o successiva. v1.5.2-eksbuild.1 Per ulteriori informazioni sul componente aggiuntivo, vedere. Installa l' CloudWatch agente con il componente aggiuntivo Amazon CloudWatch Observability EKS o il grafico Helm Per ulteriori informazioni su AWS Elastic Fabric Adapter, consulta Elastic Fabric Adapter.

Affinché Container Insights raccolga le metriche dell'adattatore AWS Elastic Fabric, devi soddisfare i seguenti prerequisiti:

  • Devi utilizzare Container Insights con osservabilità migliorata per Amazon EKS, con la versione v1.5.2-eksbuild.1 aggiuntiva Amazon CloudWatch Observability EKS o successiva.

  • Il plug-in del dispositivo EFA deve essere installato nel cluster. Per ulteriori informazioni, vedere aws-efa-k8 s-device-plugin su. GitHub

Le metriche raccolte sono elencate nella tabella seguente.

Nome parametro Dimensioni Descrizione

container_efa_rx_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

Il numero di byte al secondo ricevuti dai dispositivi EFA allocati al contenitore.

Unità: byte/secondo

container_efa_tx_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

Il numero di byte al secondo trasmessi dai dispositivi EFA allocati al contenitore.

Unità: byte/secondo

container_efa_rx_dropped

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

Il numero di pacchetti ricevuti e poi rilasciati dai dispositivi EFA assegnati al contenitore.

Unità: conteggio/secondo

container_efa_rdma_read_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

Il numero di byte al secondo ricevuti utilizzando le operazioni di lettura con accesso diretto alla memoria remota dai dispositivi EFA allocati al contenitore.

Unità: byte/secondo

container_efa_rdma_write_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

Il numero di byte al secondo trasmessi utilizzando le operazioni di lettura con accesso diretto alla memoria remota dai dispositivi EFA allocati al contenitore.

Unità: byte/secondo

container_efa_rdma_write_recv_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

Il numero di byte al secondo ricevuti durante le operazioni di scrittura con accesso diretto alla memoria remota dai dispositivi EFA allocati al contenitore.

Unità: byte/secondo

pod_efa_rx_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

Il numero di byte al secondo ricevuti dai dispositivi EFA allocati al pod.

Unità: byte/secondo

pod_efa_tx_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

Il numero di byte al secondo trasmessi dai dispositivi EFA assegnati al pod.

Unità: byte/secondo

pod_efa_rx_dropped

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

Il numero di pacchetti ricevuti e poi rilasciati dai dispositivi EFA assegnati al pod.

Unità: conteggio/secondo

pod_efa_rdma_read_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

Il numero di byte al secondo ricevuti utilizzando le operazioni di lettura con accesso diretto alla memoria remota dai dispositivi EFA allocati al pod.

Unità: byte/secondo

pod_efa_rdma_write_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

Il numero di byte al secondo trasmessi utilizzando le operazioni di lettura con accesso diretto alla memoria remota dai dispositivi EFA assegnati al pod.

Unità: byte/secondo

pod_efa_rdma_write_recv_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

Il numero di byte al secondo ricevuti durante le operazioni di scrittura con accesso diretto alla memoria remota dai dispositivi EFA allocati al pod.

Unità: byte/secondo

node_efa_rx_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

Il numero di byte al secondo ricevuti dai dispositivi EFA allocati al nodo.

Unità: byte/secondo

node_efa_tx_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

Il numero di byte al secondo trasmessi dai dispositivi EFA assegnati al nodo.

Unità: byte/secondo

node_efa_rx_dropped

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

Il numero di pacchetti ricevuti e poi rilasciati dai dispositivi EFA assegnati al nodo.

Unità: conteggio/secondo

node_efa_rdma_read_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

Il numero di byte al secondo ricevuti utilizzando le operazioni di lettura di accesso diretto alla memoria remota dai dispositivi EFA allocati al nodo.

Unità: byte/secondo

node_efa_rdma_write_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

Il numero di byte al secondo trasmessi utilizzando le operazioni di lettura con accesso diretto alla memoria remota dai dispositivi EFA assegnati al pod.

Unità: byte/secondo

node_efa_rdma_write_recv_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

Il numero di byte al secondo ricevuti durante le operazioni di scrittura con accesso diretto alla memoria remota dai dispositivi EFA allocati al nodo.

Unità: byte/secondo

Amazon SageMaker AI HyperPod metriche

A partire dalla versione v2.0.1-eksbuild.1 del componente aggiuntivo CloudWatch Observability EKS, Container Insights con osservabilità migliorata per Amazon EKS raccoglie automaticamente le metriche Amazon SageMaker AI HyperPod dai cluster Amazon EKS. Per ulteriori informazioni sul componente aggiuntivo, consulta. Installa l' CloudWatch agente con il componente aggiuntivo Amazon CloudWatch Observability EKS o il grafico Helm Per ulteriori informazioni su Amazon SageMaker AI HyperPod, consulta Amazon SageMaker AI HyperPod.

Le metriche raccolte sono elencate nella tabella seguente.

Nome parametro Dimensioni Descrizione

hyperpod_node_health_status_unschedulable

ClusterName

ClusterName, InstanceId, NodeName

Indica se un nodo è etichettato come daUnschedulable. Amazon SageMaker AI HyperPod Ciò significa che il nodo sta eseguendo controlli di integrità approfonditi e non è disponibile per l'esecuzione di carichi di lavoro.

Unità: numero

hyperpod_node_health_status_schedulable

ClusterName

ClusterName, InstanceId, NodeName

Indica se un nodo è etichettato come daSchedulable. Amazon SageMaker AI HyperPod Ciò significa che il nodo ha superato i controlli di integrità di base o i controlli di integrità approfonditi ed è disponibile per l'esecuzione di carichi di lavoro.

Unità: numero

hyperpod_node_health_status_unschedulable_pending_replacement

ClusterName

ClusterName, InstanceId, NodeName

Indica se un nodo è etichettato come daUnschedulablePendingReplacement. HyperPod Ciò significa che il nodo non ha superato i controlli approfonditi dello stato o i controlli degli agenti di monitoraggio dello stato e deve essere sostituito.

Se il ripristino automatico del nodo è abilitato, il nodo verrà automaticamente sostituito da Amazon SageMaker AI HyperPod.

Unità: numero

hyperpod_node_health_status_unschedulable_pending_reboot

ClusterName

ClusterName, InstanceId, NodeName

Indica se un nodo è etichettato come UnschedulablePendingReboot da Amazon SageMaker AI HyperPod. Ciò significa che il nodo sta eseguendo controlli di integrità approfonditi e richiede un riavvio.

Se il ripristino automatico del nodo è abilitato, il nodo verrà riavviato automaticamente da. Amazon SageMaker AI HyperPod

Unità: numero

Parametri dei NVMe driver Amazon EBS

A partire dalla versione 1.300056.0 dell' CloudWatch agente, Container Insights con osservabilità migliorata per Amazon EKS raccoglie automaticamente i parametri dei NVMe driver Amazon EBS dai cluster Amazon EKS su istanze Linux. L' CloudWatch agente deve essere installato utilizzando la versione del componente aggiuntivo CloudWatch Observability Amazon EKS 4.1.0 o successiva. Per ulteriori informazioni sul componente aggiuntivo, consulta. Installa l' CloudWatch agente con il componente aggiuntivo Amazon CloudWatch Observability EKS o il grafico Helm Per ulteriori informazioni su Amazon EBS, consulta le statistiche dettagliate sulle prestazioni di Amazon EBS.

Affinché Container Insights raccolga i parametri dei NVMe driver di Amazon EBS, devi soddisfare i seguenti prerequisiti:

  • Devi utilizzare Container Insights con osservabilità migliorata per Amazon EKS, con il componente aggiuntivo CloudWatch Observability Amazon EKS o versione 4.1.0 successiva.

  • Il 1.42.0 componente aggiuntivo del driver CSI EBS o il grafico Helm devono essere installati sul cluster con le metriche abilitate.

    • Per abilitare i parametri quando utilizzi il componente aggiuntivo del driver Amazon EBS CSI, utilizza la seguente opzione quando crei o aggiorni il componente aggiuntivo. --configuration-values '{ "node": { "enableMetrics": true } }'

    • Per abilitare le metriche se utilizzi Helm chart, usa la seguente opzione quando crei o aggiorni il componente aggiuntivo. --set node.enableMetrics=true

Le metriche raccolte sono elencate nella tabella seguente.

Nome parametro Dimensioni Descrizione

node_diskio_ebs_total_read_ops

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

Il numero totale di operazioni di lettura completate.

node_diskio_ebs_total_write_ops

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

Il numero totale di operazioni di scrittura completate.

node_diskio_ebs_total_read_bytes

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

Il numero totale di byte letti trasferiti.

node_diskio_ebs_total_write_bytes

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

Il numero totale di byte di scrittura trasferiti.

node_diskio_ebs_total_read_time

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

Il tempo totale impiegato, in microsecondi, per tutte le operazioni di lettura completate.

node_diskio_ebs_total_write_time

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

Il tempo totale impiegato, in microsecondi, da tutte le operazioni di scrittura completate.

node_diskio_ebs_volume_performance_exceeded_iops

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

Il tempo totale, in microsecondi, della richiesta di IOPS ha superato le prestazioni IOPS fornite dal volume.

node_diskio_ebs_volume_performance_exceeded_tp

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

Il tempo totale, in microsecondi, relativo alla richiesta di throughput ha superato le prestazioni di throughput fornite dal volume.

node_diskio_ebs_ec2_instance_performance_exceeded_iops

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

Il tempo totale, in microsecondi, in cui il volume EBS ha superato le prestazioni IOPS massime dell' EC2 istanza Amazon collegata.

node_diskio_ebs_ec2_instance_performance_exceeded_tp

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

Il tempo totale, in microsecondi, in cui il volume EBS ha superato le prestazioni di throughput massime dell' EC2 istanza Amazon collegata.

node_diskio_ebs_volume_queue_length

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

Il numero di operazioni di lettura e scrittura in attesa di essere completate.