Amazon EKS et Kubernetes Container Insights avec des métriques d’observabilité améliorées - Amazon CloudWatch

Amazon EKS et Kubernetes Container Insights avec des métriques d’observabilité améliorées

Les tableaux suivants répertorient les métriques et les dimensions que Container Insights avec observabilité améliorée collecte pour Amazon EKS et Kubernetes. Ces métriques sont dans l'espace de noms ContainerInsights. Pour de plus amples informations, consultez Métriques.

Si vous ne voyez aucune métrique Container Insights avec observabilité améliorée dans votre console, assurez-vous que vous avez terminé la configuration de Container Insights avec observabilité améliorée. Les métriques n’apparaissent pas avant la configuration complète de Container Insights avec observabilité améliorée. Pour de plus amples informations, consultez Configuration de Container Insights.

Si vous utilisez la version 1.5.0 ou ultérieure du module complémentaire Amazon EKS ou la version 1.300035.0 de l’agent CloudWatch, la plupart des métriques répertoriées dans le tableau suivant sont collectées pour les nœuds Linux et Windows. Consultez la colonne Nom de la métrique du tableau pour savoir quelles métriques ne sont pas collectées pour Windows.

Avec la version antérieure de Container Insights qui fournit des métriques agrégées au niveau du cluster et du service, les métriques sont chargées en tant que métriques personnalisées. Grâce à Container Insights avec observabilité améliorée pour Amazon EKS, les métriques de Container Insights sont facturées par observation au lieu d'être facturées par métrique stockée ou par journal ingéré. Pour plus d'informations sur la tarification CloudWatch, consultez Tarification d'Amazon CloudWatch.

Note

Sur Windows, les métriques réseau telles que pod_network_rx_bytes et pod_network_tx_bytes ne sont pas collectées pour les conteneurs de processus hôte.

Sur les clusters RedHat OpenShift sur AWS (ROSA), les métriques diskio telles que node_diskio_io_serviced_total et node_diskio_io_service_bytes_total ne sont pas collectées.

Nom de la métrique Dimensions Description

cluster_failed_node_count

ClusterName

Nombre d'échecs des nœuds de travail dans le cluster. Un nœud est considéré comme ayant échoué s'il souffre de conditions de nœud. Pour plus d'informations, consultez Conditions dans la documentation Kubernetes.

cluster_node_count

ClusterName

Nombre total de composants master dans le cluster.

namespace_number_of_running_pods

Namespace ClusterName

ClusterName

Nombre de pods exécutés par espace de nom dans la ressource spécifiée par les dimensions que vous utilisez.

node_cpu_limit

ClusterName

ClusterName, InstanceId, NodeName

Nombre maximal d'unités UC qui peut être attribué à un seul nœud du cluster.

node_cpu_reserved_capacity

NodeName, ClusterName, InstanceId

ClusterName

Pourcentage d'unités UC qui sont réservées pour les composants de nœud, tels que Kubelet, Kube-proxy et Docker.

Formule : node_cpu_request / node_cpu_limit

Note

node_cpu_request n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, consultez Champs pertinents dans les évènements de journaux de performance pour Amazon EKS et Kubernetes.

node_cpu_usage_total

ClusterName

ClusterName, InstanceId, NodeName

Nombre d'unités UC en cours d'utilisation sur les nœuds du cluster.

node_cpu_utilization

NodeName, ClusterName, InstanceId

ClusterName

Pourcentage total d'unités UC en cours d'utilisation sur les nœuds du cluster.

Formule : node_cpu_usage_total / node_cpu_limit

node_filesystem_utilization

NodeName, ClusterName, InstanceId

ClusterName

Pourcentage total d'une capacité de système de fichiers utilisée sur les nœuds du cluster.

Formule : node_filesystem_usage / node_filesystem_capacity

Note

node_filesystem_usage et node_filesystem_capacity ne sont pas indiqués directement sous forme de métrique, mais constituent des champs dans les événements du journal des performances. Pour de plus amples informations, consultez Champs pertinents dans les évènements de journaux de performance pour Amazon EKS et Kubernetes.

node_memory_limit

ClusterName

ClusterName, InstanceId, NodeName

Quantité de mémoire maximale, en octets, qui peut être attribuée à un seul nœud du cluster.

node_filesystem_inodes

Ce n’est pas disponible sur Windows.

ClusterName

ClusterName, InstanceId, NodeName

Le nombre total d'inodes (utilisés et non utilisés) sur un nœud.

node_filesystem_inodes_free

Ce n’est pas disponible sur Windows.

ClusterName

ClusterName, InstanceId, NodeName

Le nombre d'inodes non utilisés sur un nœud.

node_gpu_limit

ClusterName

ClusterName, InstanceId, NodeName

Le nombre total de GPU disponibles sur le nœud.

node_gpu_usage_total

ClusterName

ClusterName, InstanceId, NodeName

Le nombre de GPU en cours d’utilisation par les pods en cours d’exécution sur le nœud.

node_gpu_reserved_capacity

ClusterName

ClusterName, InstanceId, NodeName

node_memory_reserved_capacity

NodeName, ClusterName, InstanceId

ClusterName

Pourcentage de mémoire actuellement utilisé sur les nœuds du cluster.

Formule : node_memory_request / node_memory_limit

Note

node_memory_request n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, consultez Champs pertinents dans les évènements de journaux de performance pour Amazon EKS et Kubernetes.

node_memory_utilization

NodeName, ClusterName, InstanceId

ClusterName

Pourcentage de mémoire actuellement utilisé par le ou les nœuds. Il s'agit du pourcentage d'utilisation de la mémoire du nœud divisé par la limitation de la mémoire du nœud.

Formule : node_memory_working_set / node_memory_limit.

node_memory_working_set

ClusterName

ClusterName, InstanceId, NodeName

Quantité de mémoire, en octets, utilisée dans l'ensemble de travail des nœuds du cluster.

node_network_total_bytes

NodeName, ClusterName, InstanceId

ClusterName

Nombre total d'octets transmis et reçus par seconde sur le réseau par nœud dans un cluster.

Formule : node_network_rx_bytes + node_network_tx_bytes

Note

node_network_rx_bytes et node_network_tx_bytes ne sont pas indiqués directement sous forme de métrique, mais constituent des champs dans les événements du journal des performances. Pour de plus amples informations, consultez Champs pertinents dans les évènements de journaux de performance pour Amazon EKS et Kubernetes.

node_number_of_running_containers

NodeName, ClusterName, InstanceId

ClusterName

Nombre de conteneurs en cours d'exécution par nœud dans un cluster.

node_number_of_running_pods

NodeName, ClusterName, InstanceId

ClusterName

Nombre de pods en cours d'exécution par nœud dans un cluster.

node_status_allocatable_pods

ClusterName

ClusterName, InstanceId, NodeName

Le nombre de pods pouvant être affectés à un nœud en fonction de ses ressources allouables, défini comme le reste de la capacité d'un nœud après prise en compte des réserves de démons du système et des seuils d'expulsion stricts.

node_status_capacity_pods

ClusterName

ClusterName, InstanceId, NodeName

Le nombre de pods qui peuvent être affectés à un nœud en fonction de sa capacité.

node_status_condition_ready

ClusterName

ClusterName, InstanceId, NodeName

Indique si la condition d’état du nœud Ready est vraie pour les nœuds Amazon EC2.

node_status_condition_memory_pressure

ClusterName

ClusterName, InstanceId, NodeName

Indique si la condition d'état MemoryPressure du nœud est vraie.

node_status_condition_pid_pressure

ClusterName

ClusterName, InstanceId, NodeName

Indique si la condition d'état PIDPressure du nœud est vraie.

node_status_condition_disk_pressure

ClusterName

ClusterName, InstanceId, NodeName

Indique si la condition d'état OutOfDisk du nœud est vraie.

node_status_condition_unknown

ClusterName

ClusterName, InstanceId, NodeName

Indique si l'une des conditions d'état du nœud est inconnue.

node_interface_network_rx_dropped

ClusterName

ClusterName, InstanceId, NodeName

Le nombre de paquets qui ont été reçus et ensuite abandonnés par une interface de réseau sur le nœud.

node_interface_network_tx_dropped

ClusterName

ClusterName, InstanceId, NodeName

Le nombre de paquets qui devaient être transmis, mais qui ont été abandonnés par une interface réseau sur le nœud.

node_diskio_io_service_bytes_total

Elle n’est pas disponible sur Windows ou sur les clusters ROSA.

ClusterName

ClusterName, InstanceId, NodeName

Le nombre total d'octets transférés par toutes les opérations d'E/S sur le nœud.

node_diskio_io_serviced_total

Elle n’est pas disponible sur Windows ou sur les clusters ROSA.

ClusterName

ClusterName, InstanceId, NodeName

Le nombre total d'opérations d'E/S sur le nœud.

pod_cpu_reserved_capacity

PodName, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, Service

Capacité d'UC qui est réservée par pod dans un cluster.

Formule : pod_cpu_request / node_cpu_limit

Note

pod_cpu_request n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, consultez Champs pertinents dans les évènements de journaux de performance pour Amazon EKS et Kubernetes.

pod_cpu_utilization

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

Pourcentage d'unités UC utilisées par les pods.

Formule : pod_cpu_usage_total / node_cpu_limit

pod_cpu_utilization_over_pod_limit

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

Pourcentage d'unités UC en cours d'utilisation par les pods par rapport à la limite des pods.

Formule : pod_cpu_usage_total / pod_cpu_limit

pod_memory_reserved_capacity

PodName, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, Service

Pourcentage de mémoire réservé aux pods.

Formule : pod_memory_request / node_memory_limit

Note

pod_memory_request n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, consultez Champs pertinents dans les évènements de journaux de performance pour Amazon EKS et Kubernetes.

pod_memory_utilization

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

Pourcentage de mémoire actuellement utilisé par le ou les pods.

Formule : pod_memory_working_set / node_memory_limit

pod_memory_utilization_over_pod_limit

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

Pourcentage de mémoire utilisé par les pods par rapport à la limite des pods. Si l'un des conteneurs dans le pod n'a pas de limite de mémoire définie, cette métrique n'apparaît pas.

Formule : pod_memory_working_set / pod_memory_limit

pod_network_rx_bytes

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

Nombre d'octets reçus par seconde sur le réseau par le pod.

Formule : sum(pod_interface_network_rx_bytes)

Note

pod_interface_network_rx_bytes n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, consultez Champs pertinents dans les évènements de journaux de performance pour Amazon EKS et Kubernetes.

pod_network_tx_bytes

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

Nombre d'octets transmis par seconde sur le réseau par le pod.

Formule : sum(pod_interface_network_tx_bytes)

Note

pod_interface_network_tx_bytes n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, consultez Champs pertinents dans les évènements de journaux de performance pour Amazon EKS et Kubernetes.

pod_cpu_request

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Les requêtes de processeur du pod.

Formule : sum(container_cpu_request)

Note

pod_cpu_request n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, consultez Champs pertinents dans les évènements de journaux de performance pour Amazon EKS et Kubernetes.

pod_memory_request

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Les requêtes de mémoire du pod.

Formule : sum(container_memory_request)

Note

pod_memory_request n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, consultez Champs pertinents dans les évènements de journaux de performance pour Amazon EKS et Kubernetes.

pod_cpu_limit

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

La limite de processeur définie pour les conteneurs du pod. Si l'un des conteneurs du pod n'a pas de limite de processeur définie, cette métrique n'apparaît pas.

Formule : sum(container_cpu_limit)

Note

pod_cpu_limit n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, consultez Champs pertinents dans les évènements de journaux de performance pour Amazon EKS et Kubernetes.

pod_memory_limit

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

La limite de mémoire définie pour les conteneurs du pod. Si l'un des conteneurs dans le pod n'a pas de limite de mémoire définie, cette métrique n'apparaît pas.

Formule : sum(container_memory_limit)

Note

pod_cpu_limit n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, consultez Champs pertinents dans les évènements de journaux de performance pour Amazon EKS et Kubernetes.

pod_status_failed

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indique que tous les conteneurs du pod sont résiliés et qu'au moins un conteneur s'est arrêté avec un statut différent de zéro ou a été résilié par le système.

pod_status_ready

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indique que tous les conteneurs du pod sont prêts, ayant atteint l'état ContainerReady.

pod_status_running

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indique que tous les conteneurs du pod sont en cours d'exécution.

pod_status_scheduled

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indique que le pod a été planifié sur un nœud.

pod_status_unknown

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indique que l'état du pod ne peut pas être obtenu.

pod_status_pending

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indique que le pod a été accepté par le cluster, mais qu'un ou plusieurs conteneurs ne sont pas encore prêts.

pod_status_succeeded

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indique que tous les conteneurs du pod ont été correctement résiliés et ne seront pas redémarrés.

pod_number_of_containers

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indique le nombre de conteneurs défini dans la spécification du pod.

pod_number_of_running_containers

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indique le nombre de conteneurs du pod qui sont actuellement dans l'état Running.

pod_container_status_terminated

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indique le nombre de conteneurs du pod qui sont dans l'état Terminated.

pod_container_status_running

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indique le nombre de conteneurs du pod qui sont dans l'état Running.

pod_container_status_waiting

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indique le nombre de conteneurs du pod qui sont dans l'état Waiting.

pod_container_status_waiting_reason_crash_loop_back_off

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indique le nombre de conteneurs dans le pod qui sont en attente en raison d’une erreur CrashLoopBackOff, lorsqu’un conteneur ne parvient pas à démarrer de manière répétée.

pod_container_status_waiting_reason_create_container_config_error

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indique le nombre de conteneurs dans le pod qui sont en attente avec la raison CreateContainerConfigError. Cela est dû à une erreur lors de la création de la configuration du conteneur.

pod_container_status_waiting_reason_create_container_error

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indique le nombre de conteneurs dans le pod qui sont en attente avec la raison CreateContainerError en raison d’une erreur lors de la création du conteneur.

pod_container_status_waiting_reason_image_pull_error

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indique le nombre de conteneurs dans le pod qui sont en attente en raison de ErrImagePull, ImagePullBackOff, ou InvalidImageName. Ces situations sont dues à une erreur lors de l’extraction de l’image du conteneur.

pod_container_status_waiting_reason_oom_killed

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indique le nombre de conteneurs du pod qui sont dans l’état Terminated

à cause d’un manque de mémoire (OOM killed).

pod_container_status_waiting_reason_start_error

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Indique le nombre de conteneurs dans le pod qui sont en attente avec la raison étant StartError à cause d’une erreur lors du démarrage du conteneur.

pod_container_status_terminated_reason_oom_killed

ContainerName, FullPodName, PodName, Namespace, ClusterName

ContainerName, PodName, Namespace, ClusterName

ClusterName

Indique qu’un pod a été résilié pour avoir dépassé la limite de mémoire. Cette métrique n’est affichée que lorsque ce problème survient.

pod_interface_network_rx_dropped

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Le nombre de paquets qui ont été reçus et ensuite abandonnés par une interface réseau pour le pod.

pod_interface_network_tx_dropped

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Le nombre de paquets qui devaient être transmis, mais qui ont été abandonnés pour le pod.

pod_memory_working_set

ClusterName

ClusterName, Namespace, PodName

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

La mémoire en octets actuellement utilisée par un pod.

pod_cpu_usage_total

ClusterName

ClusterName, Namespace, PodName

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

Nombre d’unités UC utilisées par un pod.

container_cpu_utilization

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

Pourcentage d'unités de processeur utilisées par le conteneur.

Formule : container_cpu_usage_total / node_cpu_limit

Note

container_cpu_utilization n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, consultez Champs pertinents dans les évènements de journaux de performance pour Amazon EKS et Kubernetes.

container_cpu_utilization_over_container_limit

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

Pourcentage d'unités de processeur en cours d'utilisation par le conteneur par rapport à la limite du conteneur. Si le conteneur n'a pas de limite de processeur définie, cette métrique n'apparaît pas.

Formule : container_cpu_usage_total / container_cpu_limit

Note

container_cpu_utilization_over_container_limit n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, consultez Champs pertinents dans les évènements de journaux de performance pour Amazon EKS et Kubernetes.

container_memory_utilization

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

Le pourcentage d'unités de mémoire en cours d'utilisation par le conteneur.

Formule : container_memory_working_set / node_memory_limit

Note

container_memory_utilization n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, consultez Champs pertinents dans les évènements de journaux de performance pour Amazon EKS et Kubernetes.

container_memory_utilization_over_container_limit

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

Le pourcentage d'unités de mémoire en cours d'utilisation par le conteneur par rapport à la limite du conteneur. Si le conteneur n'a pas de limite de mémoire définie, cette métrique n'apparaît pas.

Formule : container_memory_working_set / container_memory_limit

Note

container_memory_utilization_over_container_limit n'est pas indiqué directement sous forme de métrique, mais constitue un champ dans les événements du journal des performances. Pour de plus amples informations, consultez Champs pertinents dans les évènements de journaux de performance pour Amazon EKS et Kubernetes.

container_memory_failures_total

Ce n’est pas disponible sur Windows.

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

Le nombre d'échecs d'allocation de mémoire rencontrés par le conteneur.

pod_number_of_container_restarts

PodName, Namespace, ClusterName

Nombre total de redémarrages de conteneur dans un pod.

service_number_of_running_pods

Service, Namespace, ClusterName

ClusterName

Nombre de blocs exécutant le ou les services du cluster.

replicas_desired

ClusterName

PodName, Namespace, ClusterName

Le nombre de pods souhaités pour une charge de travail, tel que défini dans la spécification de charge de travail.

replicas_ready

ClusterName

PodName, Namespace, ClusterName

Le nombre de pods pour une charge de travail qui ont atteint le statut prêt.

status_replicas_available

ClusterName

PodName, Namespace, ClusterName

Le nombre de pods disponibles pour une charge de travail. Un pod est disponible lorsqu'il est répond au critère minReadySeconds défini dans la spécification de charge de travail.

status_replicas_unavailable

ClusterName

PodName, Namespace, ClusterName

Le nombre de pods indisponibles pour une charge de travail. Un pod est disponible lorsqu'il est répond au critère minReadySeconds défini dans la spécification de charge de travail. Les pods ne sont pas disponibles s'ils ne répondent pas à ce critère.

apiserver_storage_objects

ClusterName

ClusterName, resource

Le nombre d'objets stockés dans etcd au moment de la dernière vérification.

apiserver_storage_db_total_size_in_bytes

ClusterName

ClusterName, endpoint

Taille totale du fichier de base de données de stockage physiquement alloué en octets. Cette métrique est expérimentale et pourrait changer dans les prochaines versions de Kubernetes.

Unité : octets

Statistiques significatives : Somme, Moyenne, Minimum, Maximum

apiserver_request_total

ClusterName

ClusterName, code, verb

Le nombre total de demandes d'API adressées au serveur d'API Kubernetes.

apiserver_request_duration_seconds

ClusterName

ClusterName, verb

Latence de réponse pour les demandes d'API adressées au serveur d'API Kubernetes.

apiserver_admission_controller_admission_duration_seconds

ClusterName

ClusterName, operation

Latence du contrôleur d'admission en secondes. Un contrôleur d'admission est un code qui intercepte les requêtes adressées au serveur d'API Kubernetes.

rest_client_request_duration_seconds

ClusterName

ClusterName, operation

Latence de réponse rencontrée par les clients qui appellent le serveur d'API Kubernetes. Cette métrique est expérimentale et peut changer dans les futures versions de Kubernetes.

rest_client_requests_total

ClusterName

ClusterName, code, method

Le nombre total de demandes d'API adressées au serveur d'API Kubernetes par les clients. Cette métrique est expérimentale et peut changer dans les futures versions de Kubernetes.

etcd_request_duration_seconds

ClusterName

ClusterName, operation

Latence de réponse des appels d'API à Etcd. Cette métrique est expérimentale et peut changer dans les futures versions de Kubernetes.

apiserver_storage_size_bytes

ClusterName

ClusterName, endpoint

Taille du fichier de base de données de stockage physiquement alloué en octets. Cette métrique est expérimentale et peut changer dans les futures versions de Kubernetes.

apiserver_longrunning_requests

ClusterName

ClusterName, resource

Le nombre de requêtes actives de longue durée adressées au serveur d'API Kubernetes.

apiserver_current_inflight_requests

ClusterName

ClusterName, request_kind

Le nombre de requêtes en cours de traitement par le serveur d'API Kubernetes.

apiserver_admission_webhook_admission_duration_seconds

ClusterName

ClusterName, name

Latence du webhook d'admission en secondes. Les webhooks d'admission sont des rappels HTTP qui reçoivent les requêtes d'admission et en font quelque chose.

apiserver_admission_step_admission_duration_seconds

ClusterName

ClusterName, operation

Latence des sous-étapes d'admission en secondes.

apiserver_requested_deprecated_apis

ClusterName

ClusterName, group

Nombre de requêtes adressées à des API obsolètes sur le serveur d'API Kubernetes.

apiserver_request_total_5xx

ClusterName

ClusterName, code, verb

Nombre de demandes adressées au serveur d'API Kubernetes qui ont reçu un code de réponse HTTP 5xx.

apiserver_storage_list_duration_seconds

ClusterName

ClusterName, resource

Latence de réponse lors de l’établissement de listes d’objets à partir d’Etc. Cette métrique est expérimentale et peut changer dans les futures versions de Kubernetes.

apiserver_flowcontrol_request_concurrency_limit

ClusterName

ClusterName, priority_level

Nombre de threads utilisés par les demandes en cours d’exécution dans le sous-système API Priority and Fairness.

apiserver_flowcontrol_rejected_requests_total

ClusterName

ClusterName, reason

Nombre de requêtes rejetées par le sous-système API Priority and Fairness. Cette métrique est expérimentale et peut changer dans les futures versions de Kubernetes.

apiserver_current_inqueue_requests

ClusterName

ClusterName, request_kind

Le nombre de requêtes mises en file d'attente par le serveur d'API Kubernetes. Cette métrique est expérimentale et peut changer dans les futures versions de Kubernetes.

Métriques des GPU NVIDIA

À partir de la version 1.300034.0 de l’agent CloudWatch, Container Insights avec observabilité améliorée pour Amazon EKS collecte par défaut les métriques GPU NVIDIA des charges de travail EKS. L’agent CloudWatch doit être installé à l’aide du module complémentaire EKS d’observabilité CloudWatch version v1.3.0-eksbuild.1 ou ultérieure. Pour de plus amples informations, consultez Installation de l’agent CloudWatch à l’aide du module complémentaire EKS d’observabilité Amazon CloudWatch ou des Charts de Helm. Ces métriques NVIDIA GPU collectées sont répertoriées dans le tableau de cette section.

Pour que Container Insights collecte les métriques NVIDIA GPU, vous devez remplir les conditions préalables suivantes :

  • Vous devez utiliser Container Insights avec observabilité améliorée pour Amazon EKS, avec le module complémentaire EKS d’observabilité Amazon CloudWatch version v1.3.0-eksbuild.1 ou ultérieure.

  • Le plugin de périphérique NVIDIA pour Kubernetes doit être installé dans le cluster.

  • Le kit d’outils pour conteneurs NVIDIA doit être installé sur les nœuds du cluster. Par exemple, les AMI accélérées optimisées Amazon EKS sont créées avec les composants nécessaires.

Vous pouvez désactiver la collecte des métriques GPU NVIDIA en définissant l’option accelerated_compute_metrics dans le fichier de configuration de l’agent beginn CloudWatch sur false. Pour plus d’informations et un exemple de configuration de désactivation, consultez (Facultatif) Configuration supplémentaire.

Nom de la métrique Dimensions Description

container_gpu_memory_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

La taille totale du frame buffer, en octets, sur le(s) GPU alloué(s) au conteneur.

container_gpu_memory_used

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

Les octets du frame buffer utilisés sur le(s) GPU alloué(s) au conteneur.

container_gpu_memory_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

Le pourcentage du frame buffer utilisé sur le(s) GPU alloué(s) au conteneur.

container_gpu_power_draw

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

La consommation d’énergie en watts du (des) GPU alloué(s) au conteneur.

container_gpu_temperature

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

La température en degrés Celsius du (des) GPU alloué(s) au conteneur.

container_gpu_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

Le pourcentage d’utilisation du (des) GPU alloué(s) au conteneur.

node_gpu_memory_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

La taille totale du frame buffer, en octets, sur le(s) GPU alloué(s) au nœud.

node_gpu_memory_used

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

Les octets du tampon de trame utilisés sur le(s) GPU alloué(s) au nœud.

node_gpu_memory_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

Le pourcentage du tampon de trame utilisé sur le(s) GPU alloué(s) au nœud.

node_gpu_power_draw

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

La consommation d’énergie en watts du (des) GPU alloué(s) au nœud.

node_gpu_temperature

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

La température en degrés Celsius du (des) GPU alloué(s) au nœud.

node_gpu_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

Le pourcentage d’utilisation du (des) GPU alloué(s) au nœud.

pod_gpu_memory_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

La taille totale du tampon de trame, en octets, sur le(s) GPU alloué(s) au pod.

pod_gpu_memory_used

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

Les octets du tampon de trame utilisés sur le(s) GPU alloué(s) au pod.

pod_gpu_memory_utilization

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

Le pourcentage du tampon de trame utilisé sur le(s) GPU alloué(s) au pod.

pod_gpu_power_draw

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

La consommation d’énergie en watts du (des) GPU alloué(s) au pod.

pod_gpu_temperature

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

La température en degrés Celsius du (des) GPU alloué(s) au pod.

pod_gpu_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

Le pourcentage d’utilisation du (des) GPU alloué(s) au pod.

Métriques AWS Neuron pour AWS Trainium et AWS Inferentia

À partir de la version 1.300036.0 de l’agent CloudWatch, Container Insights avec observabilité améliorée pour Amazon EKS collecte par défaut des métriques de calcul accéléré à partir des accélérateurs AWS Trainium et AWS Inferentia. L’agent CloudWatch doit être installé à l’aide du module complémentaire EKS d’observabilité CloudWatch version v1.5.0-eksbuild.1 ou ultérieure. Pour plus d’informations sur le module complémentaire, consultez Installation de l’agent CloudWatch à l’aide du module complémentaire EKS d’observabilité Amazon CloudWatch ou des Charts de Helm. Pour plus d’informations sur AWS Trainium, consultez AWS Trainium. Pour plus d’informations sur AWS Inferentia, consultez AWS Inferentia.

Pour que Container Insights puisse collecter les métriques AWS Neuron, vous devez remplir les conditions préalables suivantes :

  • Vous devez utiliser Container Insights avec observabilité améliorée pour Amazon EKS, avec le module complémentaire EKS d’observabilité Amazon CloudWatch version v1.5.0-eksbuild.1 ou ultérieure.

  • Le pilote Neuron doit être installé sur les nœuds du cluster.

  • Le plugin d’appareil Neuron doit être installé sur le cluster. Par exemple, les AMI accélérées optimisées Amazon EKS sont créées avec les composants nécessaires.

Les métriques collectées sont répertoriées dans le tableau de cette section. Les métriques sont collectées pour AWS Trainium, AWS Inferentia et AWS Inferentia2.

L’agent CloudWatch collecte ces métriques à partir du moniteur Neuron et effectue la corrélation nécessaire des ressources Kubernetes pour fournir des métriques au niveau des pods et des conteneurs

Nom de la métrique Dimensions Description

container_neuroncore_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

L’utilisation du NeuronCore, pendant la période capturée du NeuronCore alloué au conteneur.

Unité : pourcentage

container_neuroncore_memory_usage_constants

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La quantité de mémoire d’appareil utilisée pour les constantes pendant l’entraînement par le NeuronCore alloué au conteneur (ou les poids pendant l’inférence).

Unité : octets

container_neuroncore_memory_usage_model_code

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La quantité de mémoire d’appareil utilisée pour le code exécutable des modèles par le NeuronCore alloué au conteneur.

Unité : octets

container_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La quantité de mémoire d’appareil utilisée pour le scratchpad partagé par les modèles par le NeuronCore alloué au conteneur. Cette région de mémoire est réservée aux modèles.

Unité : octets

container_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La quantité de mémoire d’appareil utilisée pour l’exécution Neuron par le NeuronCore alloué au conteneur.

Unité : octets

container_neuroncore_memory_usage_tensors

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La quantité de mémoire d’appareil utilisée pour les tenseurs par le NeuronCore alloué au conteneur.

Unité : octets

container_neuroncore_memory_usage_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

La quantité totale de mémoire utilisée par le NeuronCore alloué au conteneur.

Unité : octets

container_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice

Le nombre d’événements ECC corrigés et non corrigés pour la SRAM sur puce et la mémoire d’appareil de l’appareil Neuron sur le nœud.

Unité : nombre

pod_neuroncore_utilization

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

L’utilisation du NeuronCore pendant la période capturée du NeuronCore alloué au pod.

Unité : pourcentage

pod_neuroncore_memory_usage_constants

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La quantité de mémoire d’appareil utilisée pour les constantes pendant l’entraînement par le NeuronCore alloué au pod (ou les poids pendant l’inférence).

Unité : octets

pod_neuroncore_memory_usage_model_code

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La quantité de mémoire d’appareil utilisée pour le code exécutable des modèles par le NeuronCore alloué au pod.

Unité : octets

pod_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La quantité de mémoire d’appareil utilisée pour le scratchpad partagé par les modèles par le NeuronCore alloué au pod. Cette région de mémoire est réservée aux modèles.

Unité : octets

pod_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La quantité de mémoire d’appareil utilisée pour l’exécution Neuron par le NeuronCore alloué au pod.

Unité : octets

pod_neuroncore_memory_usage_tensors

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La quantité de mémoire d’appareil utilisée pour les tenseurs par le NeuronCore alloué au pod.

Unité : octets

pod_neuroncore_memory_usage_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

La quantité totale de mémoire utilisée par le NeuronCore alloué au pod.

Unité : octets

pod_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice

Le nombre d’événements ECC corrigés et non corrigés pour la SRAM sur puce et la mémoire d’appareil de l’appareil Neuron alloué à un pod.

Unité : octets

node_neuroncore_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

L’utilisation du NeuronCore pendant la période capturée du NeuronCore alloué au nœud.

Unité : pourcentage

node_neuroncore_memory_usage_constants

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La quantité de mémoire d’appareil utilisée pour les constantes pendant l’entraînement par le NeuronCore alloué au nœud (ou les poids pendant l’inférence).

Unité : octets

node_neuroncore_memory_usage_model_code

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La quantité de mémoire d’appareil utilisée pour le code exécutable des modèles par le NeuronCore alloué au nœud.

Unité : octets

node_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La quantité de mémoire d’appareil utilisée pour le scratchpad partagé par les modèles par le NeuronCore alloué au nœud. Il s’agit d’une région de mémoire réservée aux modèles.

Unité : octets

node_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La quantité de mémoire d’appareil utilisée pour l’exécution Neuron par le NeuronCore alloué au nœud.

Unité : octets

node_neuroncore_memory_usage_tensors

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La quantité de mémoire d’appareil utilisée pour les tenseurs par le NeuronCore alloué au nœud.

Unité : octets

node_neuroncore_memory_usage_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

La quantité totale de mémoire utilisée par le NeuronCore alloué au nœud.

Unité : octets

node_neuron_execution_errors_total

ClusterName

ClusterName, InstanceId, NodeName

Le nombre total d’erreurs d’exécution sur le nœud. Ce nombre est calculé par l’agent CloudWatch en agrégeant les erreurs des types suivants : generic, numerical, transient, model, runtime et hardware

Unité : nombre

node_neurondevice_runtime_memory_used_bytes

ClusterName

ClusterName, InstanceId, NodeName

L’utilisation totale de la mémoire de l’appareil Neuron en octets sur le nœud.

Unité : octets

node_neuron_execution_latency

ClusterName

ClusterName, InstanceId, NodeName

En secondes, la latence d’une exécution sur le nœud, mesurée par l’exécution Neuron.

Unité : secondes

node_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, NodeName, NeuronDevice

Le nombre d’événements ECC corrigés et non corrigés pour la SRAM sur puce et la mémoire d’appareil de l’appareil Neuron sur le nœud.

Unité : nombre

Métriques AWS Elastic Fabric Adapter (EFA)

À partir de la version 1.300037.0 de l’agent CloudWatch, Container Insights avec observabilité améliorée pour Amazon EKS collecte les métriques AWS Elastic Fabric Adapter (EFA) des clusters Amazon EKS sur les instances Linux. L’agent CloudWatch doit être installé à l’aide du module complémentaire EKS d’observabilité CloudWatch version v1.5.2-eksbuild.1 ou ultérieure. Pour plus d’informations sur le module complémentaire, consultez Installation de l’agent CloudWatch à l’aide du module complémentaire EKS d’observabilité Amazon CloudWatch ou des Charts de Helm. Pour plus d’informations sur AWS Elastic Fabric Adapter, consultez Elastic Fabric Adapter.

Pour que Container Insights collecte les métriques de l’adaptateur AWS Elastic Fabric, vous devez remplir les conditions préalables suivantes :

  • Vous devez utiliser Container Insights avec observabilité améliorée pour Amazon EKS, avec le module complémentaire EKS d’observabilité Amazon CloudWatch version v1.5.2-eksbuild.1 ou ultérieure.

  • Le plugin de périphérique EFA doit être installé sur le cluster. Pour plus d’informations, consultez aws-efa-k8s-device-plugin sur GitHub.

Les métriques collectées sont répertoriées dans le tableau suivant.

Nom de la métrique Dimensions Description

container_efa_rx_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

Le nombre d’octets par seconde reçus par le(s) périphérique(s) EFA alloué(s) au conteneur.

Unité : octets/seconde

container_efa_tx_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

Le nombre d’octets par seconde transmis par le(s) périphérique(s) EFA alloué(s) au conteneur.

Unité : octets/seconde

container_efa_rx_dropped

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

Le nombre de paquets reçus puis abandonnés par le(s) périphérique(s) EFA attribué(s) au conteneur.

Unité : nombre/seconde

container_efa_rdma_read_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

Le nombre d’octets par seconde reçus au moyen d’opérations de lecture par accès direct à la mémoire à distance par le(s) périphérique(s) EFA alloué(s) au conteneur.

Unité : octets/seconde

container_efa_rdma_write_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

Nombre d’octets par seconde transmis au moyen d’opérations de lecture par accès direct à la mémoire à distance par le(s) périphérique(s) EFA alloué(s) au conteneur.

Unité : octets/seconde

container_efa_rdma_write_recv_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

Nombre d’octets par seconde reçus lors d’opérations d’écriture en accès direct à la mémoire distante par le(s) périphérique(s) EFA alloué(s) au conteneur.

Unité : octets/seconde

pod_efa_rx_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

Le nombre d’octets par seconde reçus par le(s) périphérique(s) EFA alloué(s) au pod.

Unité : octets/seconde

pod_efa_tx_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

Le nombre d’octets par seconde transmis par le(s) périphérique(s) EFA attribué(s) au pod.

Unité : octets/seconde

pod_efa_rx_dropped

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

Nombre de paquets reçus puis abandonnés par le(s) périphérique(s) EFA affecté(s) au pod.

Unité : nombre/seconde

pod_efa_rdma_read_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

Nombre d’octets par seconde reçus au moyen d’opérations de lecture par accès direct à la mémoire à distance par le(s) périphérique(s) EFA alloué(s) au pod.

Unité : octets/seconde

pod_efa_rdma_write_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

Nombre d’octets par seconde transmis au moyen d’opérations de lecture par accès direct à la mémoire à distance par le(s) périphérique(s) EFA alloué(s) au pod.

Unité : octets/seconde

pod_efa_rdma_write_recv_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

Le nombre d’octets par seconde reçus lors d’opérations d’écriture par accès direct à la mémoire à distance par le(s) périphérique(s) EFA alloué(s) au pod.

Unité : octets/seconde

node_efa_rx_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

Le nombre d’octets par seconde reçus par le(s) périphérique(s) EFA alloué(s) au nœud.

Unité : octets/seconde

node_efa_tx_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

Le nombre d’octets par seconde transmis par le(s) périphérique(s) EFA alloué(s) au nœud.

Unité : octets/seconde

node_efa_rx_dropped

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

Nombre de paquets reçus puis abandonnés par le(s) périphérique(s) EFA alloué(s) au nœud.

Unité : nombre/seconde

node_efa_rdma_read_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

Le nombre d’octets par seconde reçus lors d’opérations de lecture par accès direct à la mémoire à distance par le(s) périphérique(s) EFA alloué(s) au nœud.

Unité : octets/seconde

node_efa_rdma_write_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

Nombre d’octets par seconde transmis au moyen d’opérations de lecture par accès direct à la mémoire à distance par le(s) périphérique(s) EFA alloué(s) au pod.

Unité : octets/seconde

node_efa_rdma_write_recv_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

Le nombre d’octets par seconde reçus lors d’opérations d’écriture par accès direct à la mémoire à distance par le(s) périphérique(s) EFA alloué(s) au nœud.

Unité : octets/seconde

Métriques Amazon SageMaker AI HyperPod

À partir de la version v2.0.1-eksbuild.1 du module complémentaire EKS d’observabilité CloudWatch, Container Insights avec observabilité améliorée pour Amazon EKS collecte automatiquement les métriques Amazon SageMaker AI HyperPod à partir des clusters Amazon EKS. Pour plus d’informations sur le module complémentaire, consultez Installation de l’agent CloudWatch à l’aide du module complémentaire EKS d’observabilité Amazon CloudWatch ou des Charts de Helm. Pour plus d’informations sur Amazon SageMaker AI HyperPod, consultez Amazon SageMaker AI HyperPod.

Les métriques collectées sont répertoriées dans le tableau suivant.

Nom de la métrique Dimensions Description

hyperpod_node_health_status_unschedulable

ClusterName

ClusterName, InstanceId, NodeName

Indique si un nœud est étiqueté comme Unschedulable par Amazon SageMaker AI HyperPod. Cela signifie que le nœud fait l’objet de surveillances de l’état approfondies et qu’il n’est pas disponible pour exécuter des charges de travail.

Unité : nombre

hyperpod_node_health_status_schedulable

ClusterName

ClusterName, InstanceId, NodeName

Indique si un nœud est étiqueté comme Schedulable par Amazon SageMaker AI HyperPod. Cela signifie que le nœud a passé les surveillances de l’état de base ou approfondies et qu’il est disponible pour l’exécution des charges de travail.

Unité : nombre

hyperpod_node_health_status_unschedulable_pending_replacement

ClusterName

ClusterName, InstanceId, NodeName

Indique si un nœud est étiqueté comme UnschedulablePendingReplacement par HyperPod. Cela signifie que le nœud a échoué aux surveillances de l’état approfondies ou aux vérifications de l’agent de surveillance de l’état et qu’il a besoin d’être remplacé.

Si la récupération automatique des nœuds est activée, le nœud sera automatiquement remplacé par Amazon SageMaker AI HyperPod.

Unité : nombre

hyperpod_node_health_status_unschedulable_pending_reboot

ClusterName

ClusterName, InstanceId, NodeName

Indique si un nœud est étiqueté comme UnschedulablePendingReboot par Amazon SageMaker AI HyperPod. Cela signifie que le nœud exécute des vérifications de l’état approfondies et nécessite un redémarrage.

Si la récupération automatique des nœuds est activée, le nœud sera automatiquement redémarré par Amazon SageMaker AI HyperPod.

Unité : nombre

Métriques du pilote NVMe d’Amazon EBS

À partir de la version 1.300056.0 de l’agent CloudWatch, Container Insights avec observabilité améliorée pour Amazon EKS collecte automatiquement les métriques du pilote NVMe d’Amazon EBS à partir des clusters Amazon EKS sur les instances Linux. L’agent CloudWatch doit être installé à l’aide du module complémentaire EKS d’observabilité Amazon CloudWatch version 4.1.0 ou ultérieure. Pour plus d’informations sur le module complémentaire, consultez Installation de l’agent CloudWatch à l’aide du module complémentaire EKS d’observabilité Amazon CloudWatch ou des Charts de Helm. Pour plus d’informations sur Amazon EBS, consultez Statistiques de performance détaillées d’Amazon EBS.

Pour que Container Insights collecte les métriques du pilote NVMe d’Amazon EBS, vous devez remplir les conditions préalables suivantes :

  • Vous devez utiliser Container Insights avec observabilité améliorée pour Amazon EKS, avec le module complémentaire Amazon EKS d’observabilité CloudWatch version 4.1.0 ou ultérieure.

  • Le module complémentaire du pilote CSI EBS 1.42.0 ou les Charts de Helm doivent être installés sur le cluster avec les métriques activées.

    • Pour activer les métriques lorsque vous utilisez le module complémentaire du pilote CSI Amazon EBS, utilisez l’option suivante lors de la création ou de la mise à jour du module complémentaire. --configuration-values '{ "node": { "enableMetrics": true } }'

    • Pour activer les métriques si vous utilisez les Charts de Helm, utilisez l’option suivante lorsque vous créez ou mettez à jour le module complémentaire. --set node.enableMetrics=true

Les métriques collectées sont répertoriées dans le tableau suivant.

Nom de la métrique Dimensions Description

node_diskio_ebs_total_read_ops

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

Nombre total d’opérations de lecture terminées.

node_diskio_ebs_total_write_ops

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

Nombre total d’opérations d’écriture terminées.

node_diskio_ebs_total_read_bytes

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

Nombre total d’octets lus transférés.

node_diskio_ebs_total_write_bytes

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

Nombre total d’octets écrits transférés.

node_diskio_ebs_total_read_time

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

Temps total, en microsecondes, passé pour toutes les opérations de lecture terminées.

node_diskio_ebs_total_write_time

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

Temps total, en microsecondes, passé pour toutes les opérations d’écriture terminées.

node_diskio_ebs_volume_performance_exceeded_iops

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

Temps total, en microsecondes, pendant lequel la demande d’IOPS a dépassé les performances d’IOPS provisionnées pour le volume.

node_diskio_ebs_volume_performance_exceeded_tp

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

Temps total, en microsecondes, pendant lequel la demande de débit a dépassé les performances de débit provisionnées pour le volume.

node_diskio_ebs_ec2_instance_performance_exceeded_iops

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

Temps total, en microsecondes, pendant lequel le volume EBS a dépassé les performances d’IOPS maximales de l’instance Amazon EC2.

node_diskio_ebs_ec2_instance_performance_exceeded_tp

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

Temps total, en microsecondes, pendant lequel le volume EBS a dépassé le débit maximal de l’instance Amazon EC2.

node_diskio_ebs_volume_queue_length

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

Nombre d’opérations de lecture et d’écriture en attente d’exécution.