NVIDIA-GPU-Metriken AWS Neuronenmetriken für AWS Trainium und Inferentia AWS AWS Metriken für Elastic Fabric Adapter (EFA) Amazon SageMaker AI HyperPod -Metriken Amazon NVMe EBS-Treibermetriken

Container-Insights-Metriken mit verbesserter Beobachtbarkeit für Amazon EKS und Kubernetes

Die folgende Tabelle listet die Metriken und Dimensionen auf, die von Container Insights mit verbesserter Beobachtbarkeit für Amazon EKS und Kubernetes erfasst werden. Diese Metriken befinden sich im ContainerInsights-Namespace. Weitere Informationen finden Sie unter Metriken.

Wenn Sie keine Container-Insights-Metriken mit verbesserter Beobachtbarkeit in Ihrer Konsole sehen, stellen Sie sicher, dass Sie die Einrichtung von Container Insights mit verbesserter Beobachtbarkeit durchgeführt haben. Metriken werden erst angezeigt, wenn Container Insights mit verbesserter Beobachtbarkeit vollständig eingerichtet wurde. Weitere Informationen finden Sie unter Einrichten von Container Insights.

Wenn Sie Version 1.5.0 oder höher des Amazon EKS-Add-ons oder Version 1.300035.0 des CloudWatch Agenten verwenden, werden die meisten in der folgenden Tabelle aufgeführten Metriken sowohl für Linux- als auch für Windows-Knoten erfasst. In der Tabellenspalte Metrikname können Sie sehen, welche Metriken für Windows nicht erfasst werden.

In der früheren Version von Container Insights, die aggregierte Metriken auf Cluster- und Serviceebene bereitstellt, werden die Metriken als benutzerdefinierte Metriken berechnet. Bei Container Insights mit verbesserter Beobachtbarkeit für Amazon EKS werden die Container-Insights-Metriken pro Beobachtung abgerechnet, anstatt pro gespeicherter Metrik oder aufgenommenem Protokoll. Weitere Informationen zur CloudWatch Preisgestaltung finden Sie unter CloudWatchAmazon-Preise.

Anmerkung

Unter Windows werden Netzwerkmetriken wie pod_network_rx_bytes und pod_network_tx_bytes für Hostprozesscontainer nicht erfasst.

RedHat OpenShift Auf On-Clustern AWS (ROSA) node_diskio_io_service_bytes_total werden Diskio-Metriken wie node_diskio_io_serviced_total und nicht erfasst.

Metrikname	Dimensionen	Description
`cluster_failed_node_count`	`ClusterName`	Die Anzahl der fehlgeschlagenen Workerknoten im Cluster. Ein Knoten gilt als ausgefallen, wenn er unter Knotenbedingungen leidet. Weitere Informationen finden Sie unter Bedingungen in der Kubernetes-Dokumentation.
`cluster_node_count`	`ClusterName`	Die Gesamtzahl der Workerknoten im Cluster.
`namespace_number_of_running_pods`	`Namespace` `ClusterName` `ClusterName`	Die Anzahl der Pods, die pro Namespace in der Ressource ausgeführt werden, die durch die von Ihnen verwendeten Dimensionen angegeben wird.
`node_cpu_limit`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Die maximale Anzahl der CPU-Einheiten, die einem einzelnen Knoten in diesem Cluster zugewiesen werden können.
`node_cpu_reserved_capacity`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	Der Prozentsatz der CPU-Einheiten, die für Knotenkomponenten, wie z. B. kubelet, kube-proxy und Docker, reserviert sind. Formel: `node_cpu_request / node_cpu_limit` Anmerkung `node_cpu_request` wird nicht direkt als Metrik gemeldet, sondern ist ein Feld in Leistungsprotokoll-Ereignissen. Weitere Informationen finden Sie unter Relevante Felder in Performance-Protokollereignissen für Amazon EKS und Kubernetes.
`node_cpu_usage_total`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Die Anzahl der CPU-Einheiten, die auf den Knoten im Cluster verwendet werden.
`node_cpu_utilization`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	Der Gesamtprozentsatz der CPU-Einheiten, die auf den Knoten im Cluster verwendet werden. Formel: `node_cpu_usage_total / node_cpu_limit`
`node_filesystem_utilization`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	Der Gesamtprozentsatz der Dateisystemkapazität, die auf den Knoten im Cluster verwendet wird. Formel: `node_filesystem_usage / node_filesystem_capacity` Anmerkung `node_filesystem_usage` und `node_filesystem_capacity` werden nicht direkt als Metriken gemeldet, sondern sind Felder in Leistungsprotokoll-Ereignissen. Weitere Informationen finden Sie unter Relevante Felder in Performance-Protokollereignissen für Amazon EKS und Kubernetes.
`node_memory_limit`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Die maximale Menge an Arbeitsspeicher in Byte, die einem einzelnen Knoten in diesem Cluster zugewiesen werden kann.
`node_filesystem_inodes` Ist nicht für Windows verfügbar.	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Die Gesamtzahl der inodes (verwendet und unbenutzt) auf einem Knoten.
`node_filesystem_inodes_free` Ist nicht für Windows verfügbar.	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Die Anzahl der ungenutzten inodes auf einem Knoten.
`node_gpu_limit`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Die Gesamtzahl der auf dem Knoten verfügbaren GPUs.
`node_gpu_usage_total`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Die Anzahl der GPU(s), die von den laufenden Pods auf dem Knoten verwendet werden.
`node_gpu_reserved_capacity`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`
`node_memory_reserved_capacity`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	Der Prozentsatz des Arbeitsspeichers, der derzeit auf den Knoten im Cluster verwendet wird. Formel: `node_memory_request / node_memory_limit` Anmerkung `node_memory_request` wird nicht direkt als Metrik gemeldet, sondern ist ein Feld in Leistungsprotokoll-Ereignissen. Weitere Informationen finden Sie unter Relevante Felder in Performance-Protokollereignissen für Amazon EKS und Kubernetes.
`node_memory_utilization`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	Der Prozentsatz des Arbeitsspeichers, der derzeit vom Knoten oder den Knoten verwendet wird. Dies ist der Prozentsatz der Knotenspeichernutzung geteilt durch die Knotenspeicherbegrenzung. Formel: `node_memory_working_set / node_memory_limit`.
`node_memory_working_set`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Die Menge an Arbeitsspeicher in Byte, die im arbeitenden Satz der Knoten im Cluster verwendet wird.
`node_network_total_bytes`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	Die Gesamtzahl der pro Knoten in einem Cluster über das Netzwerk gesendeten und empfangenen Bytes pro Sekunde. Formel: `node_network_rx_bytes + node_network_tx_bytes` Anmerkung `node_network_rx_bytes` und `node_network_tx_bytes` werden nicht direkt als Metriken gemeldet, sondern sind Felder in Leistungsprotokoll-Ereignissen. Weitere Informationen finden Sie unter Relevante Felder in Performance-Protokollereignissen für Amazon EKS und Kubernetes.
`node_number_of_running_containers`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	Die Anzahl der pro Knoten in einem Cluster ausgeführten Container.
`node_number_of_running_pods`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	Die Anzahl der pro Knoten in einem Cluster ausgeführten Pods.
`node_status_allocatable_pods`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Die Anzahl der Pods, die einem Knoten auf der Grundlage seiner zuweisbaren Ressourcen zugewiesen werden können. Diese ist definiert als die verbleibende Kapazität eines Knotens nach Berücksichtigung der Reservierungen von System-Daemons und der harten Schwellenwerte für die Bereinigung.
`node_status_capacity_pods`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Die Anzahl der Pods, die einem Knoten basierend auf seiner Kapazität zugewiesen werden können.
`node_status_condition_ready`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Gibt an, ob die Knotenstatusbedingung für EC2 Amazon-Knoten wahr `Ready` ist.
`node_status_condition_memory_pressure`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Zeigt an, ob die Knotenstatusbedingung `MemoryPressure` wahr ist.
`node_status_condition_pid_pressure`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Zeigt an, ob die Knotenstatusbedingung `PIDPressure` wahr ist.
`node_status_condition_disk_pressure`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Zeigt an, ob die Knotenstatusbedingung `OutOfDisk` wahr ist.
`node_status_condition_unknown`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Gibt an, ob eine der Knotenstatusbedingungen Unbekannt ist.
`node_interface_network_rx_dropped`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Die Anzahl der Pakete, die von einer Netzwerkschnittstelle auf dem Knoten empfangen und anschließend verworfen wurden.
`node_interface_network_tx_dropped`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Die Anzahl der Pakete, die übertragen werden sollten, aber von einer Netzwerkschnittstelle auf dem Knoten verworfen wurden.
`node_diskio_io_service_bytes_total` Ist nicht für Windows oder auf ROSA-Clustern verfügbar.	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Die Gesamtzahl der Byte, die durch alle I/O Operationen auf dem Knoten übertragen wurden.
`node_diskio_io_serviced_total` Ist nicht für Windows oder auf ROSA-Clustern verfügbar.	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Die Gesamtzahl der I/O Operationen auf dem Knoten.
`pod_cpu_reserved_capacity`	`PodName`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `Service`	Die CPU-Kapazität, die pro Pod in einem Cluster reserviert ist. Formel: `pod_cpu_request / node_cpu_limit` Anmerkung `pod_cpu_request` wird nicht direkt als Metrik gemeldet, sondern ist ein Feld in Leistungsprotokoll-Ereignissen. Weitere Informationen finden Sie unter Relevante Felder in Performance-Protokollereignissen für Amazon EKS und Kubernetes.
`pod_cpu_utilization`	`PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Der Prozentsatz der CPU-Einheiten, die von Pods verwendet werden. Formel: `pod_cpu_usage_total / node_cpu_limit`
`pod_cpu_utilization_over_pod_limit`	`PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Der Prozentsatz der CPU-Einheiten, die von Pods im Verhältnis zum Pod-Limit verwendet werden. Formel: `pod_cpu_usage_total / pod_cpu_limit`
`pod_memory_reserved_capacity`	`PodName`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `Service`	Der Prozentsatz des Arbeitsspeichers, der für Pods reserviert ist. Formel: `pod_memory_request / node_memory_limit` Anmerkung `pod_memory_request` wird nicht direkt als Metrik gemeldet, sondern ist ein Feld in Leistungsprotokoll-Ereignissen. Weitere Informationen finden Sie unter Relevante Felder in Performance-Protokollereignissen für Amazon EKS und Kubernetes.
`pod_memory_utilization`	`PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Der Prozentsatz des Arbeitsspeichers, der derzeit vom Pod oder Pods verwendet wird. Formel: `pod_memory_working_set / node_memory_limit`
`pod_memory_utilization_over_pod_limit`	`PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Der Prozentsatz des Arbeitsspeichers, der von den Pods im Verhältnis zum Pod-Limit verwendet wird. Wenn für keinen der Container im Pod ein Speicherlimit definiert ist, wird diese Metrik nicht angezeigt. Formel: `pod_memory_working_set / pod_memory_limit`
`pod_network_rx_bytes`	`PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Die Anzahl der Bytes pro Sekunde, die vom Pod über das Netzwerk empfangen werden. Formel: `sum(pod_interface_network_rx_bytes)` Anmerkung `pod_interface_network_rx_bytes` wird nicht direkt als Metrik gemeldet, sondern ist ein Feld in Leistungsprotokoll-Ereignissen. Weitere Informationen finden Sie unter Relevante Felder in Performance-Protokollereignissen für Amazon EKS und Kubernetes.
`pod_network_tx_bytes`	`PodName`, `Namespace`, `ClusterName` `Namespace,` `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Die Anzahl der Bytes pro Sekunde, die vom Pod über das Netzwerk übertragen werden. Formel: `sum(pod_interface_network_tx_bytes)` Anmerkung `pod_interface_network_tx_bytes` wird nicht direkt als Metrik gemeldet, sondern ist ein Feld in Leistungsprotokoll-Ereignissen. Weitere Informationen finden Sie unter Relevante Felder in Performance-Protokollereignissen für Amazon EKS und Kubernetes.
`pod_cpu_request`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Die CPU-Anforderungen für den Pod. Formel: `sum(container_cpu_request)` Anmerkung `pod_cpu_request` wird nicht direkt als Metrik gemeldet, sondern ist ein Feld in Leistungsprotokoll-Ereignissen. Weitere Informationen finden Sie unter Relevante Felder in Performance-Protokollereignissen für Amazon EKS und Kubernetes.
`pod_memory_request`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Die SpeicherAnforderungen für den Pod. Formel: `sum(container_memory_request)` Anmerkung `pod_memory_request` wird nicht direkt als Metrik gemeldet, sondern ist ein Feld in Leistungsprotokoll-Ereignissen. Weitere Informationen finden Sie unter Relevante Felder in Performance-Protokollereignissen für Amazon EKS und Kubernetes.
`pod_cpu_limit`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Das für die Container im Pod definierte CPU-Limit. Wenn für keinen der Container im Pod ein CPU-Limit definiert ist, wird diese Metrik nicht angezeigt. Formel: `sum(container_cpu_limit)` Anmerkung `pod_cpu_limit` wird nicht direkt als Metrik gemeldet, sondern ist ein Feld in Leistungsprotokoll-Ereignissen. Weitere Informationen finden Sie unter Relevante Felder in Performance-Protokollereignissen für Amazon EKS und Kubernetes.
`pod_memory_limit`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Das für die Container im Pod definierte Speicherlimit. Wenn für keinen der Container im Pod ein Speicherlimit definiert ist, wird diese Metrik nicht angezeigt. Formel: `sum(container_memory_limit)` Anmerkung `pod_cpu_limit` wird nicht direkt als Metrik gemeldet, sondern ist ein Feld in Leistungsprotokoll-Ereignissen. Weitere Informationen finden Sie unter Relevante Felder in Performance-Protokollereignissen für Amazon EKS und Kubernetes.
`pod_status_failed`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Zeigt an, dass alle Container im Pod beendet wurden und mindestens ein Container mit einem Status ungleich Null beendet wurde oder vom System beendet wurde.
`pod_status_ready`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Zeigt an, dass alle Container im Pod bereit sind, da sie den Zustand `ContainerReady` erreicht haben.
`pod_status_running`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Zeigt an, dass alle Container im Pod laufen.
`pod_status_scheduled`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Zeigt an, dass der Pod für einen Knoten geplant wurde.
`pod_status_unknown`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Zeigt an, dass der Status des Pods nicht abgerufen werden kann.
`pod_status_pending`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Zeigt an, dass der Pod vom Cluster akzeptiert wurde, aber einer oder mehrere Container noch nicht bereit sind.
`pod_status_succeeded`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Zeigt an, dass alle Container im Pod erfolgreich beendet wurden und nicht neu gestartet werden.
`pod_number_of_containers`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Meldet die Anzahl der Container, die in der Pod-Spezifikation definiert sind.
`pod_number_of_running_containers`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Meldet die Anzahl der Container im Pod, die sich derzeit im Status `Running` befinden.
`pod_container_status_terminated`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Meldet die Anzahl der Container im Pod, die sich im Status `Terminated` befinden.
`pod_container_status_running`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Meldet die Anzahl der Container im Pod, die sich im Status `Running` befinden.
`pod_container_status_waiting`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Meldet die Anzahl der Container im Pod, die sich im Status `Waiting` befinden.
`pod_container_status_waiting_reason_crash_loop_back_off`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Meldet die Anzahl der Container im Pod, die aufgrund eines `CrashLoopBackOff`-Fehlers ausstehend sind, bei dem ein Container wiederholt nicht gestartet werden kann.
`pod_container_status_waiting_reason_create_container_config_error`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Meldet die Anzahl der Container im Pod, die mit dem Grund `CreateContainerConfigError` ausstehend sind. Die Ursache dafür ist ein Fehler beim Erstellen der Container-Konfiguration.
`pod_container_status_waiting_reason_create_container_error`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Meldet die Anzahl der Container im Pod, die mit dem Grund `CreateContainerError` aufgrund eines Fehlers beim Erstellen des Containers ausstehend sind.
`pod_container_status_waiting_reason_image_pull_error`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Meldet die Anzahl der Container im Pod, die aufgrund von `ErrImagePull`, `ImagePullBackOff` oder `InvalidImageName` ausstehend sind. Diese Situationen sind auf einen Fehler beim Abruf des Container-Images zurückzuführen.
`pod_container_status_waiting_reason_oom_killed`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Meldet die Anzahl der Container im Pod, die sich im Status `Terminated` befinden. weil nicht mehr genügend Speicher zur Verfügung steht (OOM beendet).
`pod_container_status_waiting_reason_start_error`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Meldet die Anzahl der Container im Pod, die mit dem Grund `StartError` aufgrund eines Fehlers beim Starten des Containers ausstehend sind.
`pod_container_status_terminated_reason_oom_killed`	`ContainerName`, `FullPodName`, `PodName`, `Namespace`, `ClusterName` `ContainerName`, `PodName`, `Namespace`, `ClusterName` `ClusterName`	Zeigt an, dass ein Pod aufgrund einer Überschreitung des Speicherlimits beendet wurde. Diese Metrik wird nur beim Auftreten dieses Problems angezeigt.
`pod_interface_network_rx_dropped`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Die Anzahl der Pakete, die von einer Netzwerkschnittstelle für den Pod empfangen und anschließend verworfen wurden.
`pod_interface_network_tx_dropped`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Die Anzahl der Pakete, die übertragen werden sollten, aber für den Pod verworfen wurden.
`pod_memory_working_set`	`ClusterName` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Der derzeit von einem Pod verwendete Speicher in Byte.
`pod_cpu_usage_total`	`ClusterName` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Die Anzahl von CPU-Einheiten, die von einem Pod verwendet werden.
`container_cpu_utilization`	`ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`	Der Prozentsatz der CPU-Einheiten, die vom Container verwendet werden. Formel: `container_cpu_usage_total / node_cpu_limit` Anmerkung `container_cpu_utilization` wird nicht direkt als Metrik gemeldet, sondern ist ein Feld in Leistungsprotokoll-Ereignissen. Weitere Informationen finden Sie unter Relevante Felder in Performance-Protokollereignissen für Amazon EKS und Kubernetes.
`container_cpu_utilization_over_container_limit`	`ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`	Der Prozentsatz der CPU-Einheiten, die vom Container im Verhältnis zum Container-Limit verwendet werden. Wenn für den Container kein Speicherlimit definiert ist, wird diese Metrik nicht angezeigt. Formel: `container_cpu_usage_total / container_cpu_limit` Anmerkung `container_cpu_utilization_over_container_limit` wird nicht direkt als Metrik gemeldet, sondern ist ein Feld in Leistungsprotokoll-Ereignissen. Weitere Informationen finden Sie unter Relevante Felder in Performance-Protokollereignissen für Amazon EKS und Kubernetes.
`container_memory_utilization`	`ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`	Prozentsatz der Speichereinheiten, die vom Container verwendet werden. Formel: `container_memory_working_set / node_memory_limit` Anmerkung `container_memory_utilization` wird nicht direkt als Metrik gemeldet, sondern ist ein Feld in Leistungsprotokoll-Ereignissen. Weitere Informationen finden Sie unter Relevante Felder in Performance-Protokollereignissen für Amazon EKS und Kubernetes.
`container_memory_utilization_over_container_limit`	`ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`	Prozentsatz der vom Container benutzten Speichereinheiten im Verhältnis zum Container-Limit. Wenn für den Container kein Speicherlimit definiert ist, wird diese Metrik nicht angezeigt. Formel: `container_memory_working_set / container_memory_limit` Anmerkung `container_memory_utilization_over_container_limit` wird nicht direkt als Metrik gemeldet, sondern ist ein Feld in Leistungsprotokoll-Ereignissen. Weitere Informationen finden Sie unter Relevante Felder in Performance-Protokollereignissen für Amazon EKS und Kubernetes.
`container_memory_failures_total` Ist nicht für Windows verfügbar.	`ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`	Die Anzahl der Fehler bei der Speicherzuweisung, die beim Container aufgetreten sind.
`pod_number_of_container_restarts`	PodName, `Namespace`, `ClusterName`	Die Gesamtanzahl der Container-Neustarts in einem Pod.
`service_number_of_running_pods`	Service `Namespace`, `ClusterName` `ClusterName`	Die Anzahl der Pods, von denen der Service oder die Services im Cluster ausgeführt werden.
`replicas_desired`	`ClusterName` `PodName`, `Namespace`, `ClusterName`	Die Anzahl der Pods, die für einen Workload gewünscht werden, wie in der Workload-Spezifikation definiert.
`replicas_ready`	`ClusterName` `PodName`, `Namespace`, `ClusterName`	Die Anzahl der Pods für einen Workload, die den Status Bereit erreicht haben.
`status_replicas_available`	`ClusterName` `PodName`, `Namespace`, `ClusterName`	Die Anzahl der verfügbaren Pods für einen Workload. Ein Pod ist verfügbar, wenn er für die in der Workload-Spezifikation definierten `minReadySeconds` bereit ist.
`status_replicas_unavailable`	`ClusterName` `PodName`, `Namespace`, `ClusterName`	Die Anzahl der Pods für einen Workload, die nicht verfügbar sind. Ein Pod ist verfügbar, wenn er für die in der Workload-Spezifikation definierten `minReadySeconds` bereit ist. Pods sind nicht verfügbar, wenn sie dieses Kriterium nicht erfüllen.
`apiserver_storage_objects`	`ClusterName` `ClusterName`, `resource`	Die Anzahl der zum Zeitpunkt der letzten Prüfung in etcd gespeicherten Objekte.
`apiserver_storage_db_total_size_in_bytes`	`ClusterName` `ClusterName`, `endpoint`	Gesamtgröße der physisch zugewiesenen Speicherdatenbankdatei in Byte. Diese Metrik ist experimentell und könnte sich in zukünftigen Versionen von Kubernetes ändern. Einheit: Byte Aussagekräftige Statistiken: Summe, Durchschnitt, Minimum, Maximum
`apiserver_request_total`	`ClusterName` `ClusterName`, `code`, `verb`	Die Gesamtzahl der API-Anforderungen an den Kubernetes-API-Server.
`apiserver_request_duration_seconds`	`ClusterName` `ClusterName`, `verb`	Reaktionslatenz für API-Anforderungen an den Kubernetes-API-Server.
`apiserver_admission_controller_admission_duration_seconds`	`ClusterName` `ClusterName`, `operation`	Latenz des Admission Controllers in Sekunden. Ein Admission Controller ist Code, der Anforderungen an den Kubernetes-API-Server abfängt.
`rest_client_request_duration_seconds`	`ClusterName` `ClusterName`, `operation`	Reaktionslatenz bei Clients, die den Kubernetes-API-Server aufrufen. Diese Metrik ist experimentell und kann sich in zukünftigen Versionen von Kubernetes ändern.
`rest_client_requests_total`	`ClusterName` `ClusterName`, `code`, `method`	Die Gesamtzahl der API-Anforderungen, die von Clients an den Kubernetes-API-Server gestellt wurden. Diese Metrik ist experimentell und kann sich in zukünftigen Versionen von Kubernetes ändern.
`etcd_request_duration_seconds`	`ClusterName` `ClusterName`, `operation`	Antwortlatenz bei API-Aufrufen an Etcd. Diese Metrik ist experimentell und kann sich in zukünftigen Versionen von Kubernetes ändern.
`apiserver_storage_size_bytes`	`ClusterName` `ClusterName`, `endpoint`	Größe der physisch zugewiesenen Speicherdatenbankdatei in Byte. Diese Metrik ist experimentell und kann sich in zukünftigen Versionen von Kubernetes ändern.
`apiserver_longrunning_requests`	`ClusterName` `ClusterName`, `resource`	Die Anzahl der aktiven Anforderungen mit langer Laufzeit an den Kubernetes-API-Server.
`apiserver_current_inflight_requests`	`ClusterName` `ClusterName`, `request_kind`	Die Anzahl der Anforderungen, die vom Kubernetes-API-Server verarbeitet werden.
`apiserver_admission_webhook_admission_duration_seconds`	`ClusterName` `ClusterName`, `name`	Webhook-Latenz bei der Zulassung in Sekunden. Zulassungs-Webhooks sind HTTP-Callbacks, die ZulassungsAnforderungen empfangen und etwas damit anfangen.
`apiserver_admission_step_admission_duration_seconds`	`ClusterName` `ClusterName`, `operation`	Latenz der Teilschritte bei der Zulassung in Sekunden.
`apiserver_requested_deprecated_apis`	`ClusterName` `ClusterName`, `group`	Anzahl der Anfragen, die APIs auf dem Kubernetes-API-Server als veraltet gelten.
`apiserver_request_total_5xx`	`ClusterName` `ClusterName`, `code`, `verb`	Anzahl der Anforderungen an den Kubernetes-API-Server, auf die mit einem 5XX-HTTP-Antwortcode geantwortet wurde.
`apiserver_storage_list_duration_seconds`	`ClusterName` `ClusterName`, `resource`	Reaktionslatenz beim Auflisten von Objekten aus Etc. Diese Metrik ist experimentell und kann sich in zukünftigen Versionen von Kubernetes ändern.
`apiserver_flowcontrol_request_concurrency_limit`	`ClusterName` `ClusterName`, `priority_level`	Die Anzahl der Threads, die von den aktuell ausgeführten Anforderungen im API-Subsystem Priority and Fairness genutzt werden.
`apiserver_flowcontrol_rejected_requests_total`	`ClusterName` `ClusterName`, `reason`	Anzahl der Anforderungen, die vom API-Subsystem Priority and Fairness abgelehnt wurden. Diese Metrik ist experimentell und kann sich in zukünftigen Versionen von Kubernetes ändern.
`apiserver_current_inqueue_requests`	`ClusterName` `ClusterName`, `request_kind`	Die Anzahl der Anforderungen in der Warteschlange, die vom Kubernetes-API-Server in die Warteschlange gestellt wurden. Diese Metrik ist experimentell und kann sich in zukünftigen Versionen von Kubernetes ändern.

NVIDIA-GPU-Metriken

Ab 1.300034.0 der Version des CloudWatch Agenten erfasst Container Insights mit verbesserter Observability für Amazon EKS standardmäßig NVIDIA-GPU-Metriken von EKS-Workloads. Der CloudWatch Agent muss mit der Add-On-Version von CloudWatch Observability EKS oder einer späteren Version v1.3.0-eksbuild.1 installiert werden. Weitere Informationen finden Sie unter Installieren Sie den CloudWatch Agenten mit dem Amazon CloudWatch Observability EKS-Add-on oder dem Helm-Diagramm. Diese NVIDIA-GPU-Metriken, die erfasst werden, sind in der Tabelle in diesem Abschnitt aufgeführt.

Damit Container Insights NVIDIA-GPU-Metriken erfassen kann, müssen Sie die folgenden Voraussetzungen erfüllen:

Sie müssen Container Insights mit erweiterter Observability für Amazon EKS mit der Zusatzversion Amazon CloudWatch Observability EKS v1.3.0-eksbuild.1 oder höher verwenden.
Das NVIDIA-Geräte-Plugin für Kubernetes muss im Cluster installiert sein.
Das NVIDIA-Container-Toolkit muss auf den Knoten des Clusters installiert sein. Beispielsweise AMIs sind die für Amazon EKS optimierten Accelerated mit den erforderlichen Komponenten ausgestattet.

Sie können die Erfassung von NVIDIA-GPU-Metriken deaktivieren, indem Sie die accelerated_compute_metrics Option in der CloudWatch Start-Agent-Konfigurationsdatei auf einstellenfalse. Weitere Informationen sowie ein Beispiel für eine Opt-Out-Konfiguration finden Sie unter (Optional) Zusätzliche Konfiguration.

Metrikname	Dimensionen	Description
`container_gpu_memory_total`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	Die Gesamtgröße des Frame-Puffers in Byte auf den GPU(s), die dem Container zugewiesen sind.
`container_gpu_memory_used`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	Die Bytes des verwendeten Frame-Puffers auf den GPU(s), die dem Container zugewiesen sind.
`container_gpu_memory_utilization`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	Der Prozentsatz des verwendeten Frame-Puffers der GPU(s), die dem Container zugewiesen sind.
`container_gpu_power_draw`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	Der Stromverbrauch der GPU(s), die dem Container zugewiesen sind, in Watt.
`container_gpu_temperature`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	Die Temperatur der GPU(s), die dem Container zugewiesen sind, in Grad Celsius.
`container_gpu_utilization`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	Die prozentuale Auslastung der GPU(s), die dem Container zugewiesen sind.
`container_gpu_tensor_core_utilization`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	Die prozentuale Auslastung der Tensorkerne auf den GPU (s), die dem Container zugewiesen sind.
`node_gpu_memory_total`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	Die Gesamtgröße des Frame-Puffers in Byte auf den GPU(s), die dem Knoten zugewiesen sind.
`node_gpu_memory_used`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	Die Bytes des verwendeten Frame-Puffers auf den GPU(s), die dem Knoten zugewiesen sind.
`node_gpu_memory_utilization`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	Der Prozentsatz des verwendeten Frame-Puffers auf den GPU(s), die dem Knoten zugewiesen sind.
`node_gpu_power_draw`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	Der Stromverbrauch der GPU(s), die dem Knoten zugewiesen sind, in Watt.
`node_gpu_temperature`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	Die Temperatur der GPU(s), die dem Knoten zugewiesen sind, in Grad Celsius.
`node_gpu_utilization`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	Die prozentuale Auslastung der GPU(s), die dem Knoten zugewiesen sind.
`node_gpu_tensor_core_utilization`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	Die prozentuale Auslastung der Tensorkerne auf den GPU (s), die dem Knoten zugewiesen sind.
`pod_gpu_memory_total`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`	Die Gesamtgröße des Frame-Puffers in Byte auf den GPU(s), die dem Pod zugewiesen sind.
`pod_gpu_memory_used`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`	Die Bytes des verwendeten Frame-Puffers auf den GPU(s), die dem Pod zugewiesen sind.
`pod_gpu_memory_utilization`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`	Der Prozentsatz des verwendeten Frame-Puffers der GPU(s), die dem Pod zugewiesen sind.
`pod_gpu_power_draw`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`	Der Stromverbrauch der GPU(s), die dem Pod zugewiesen sind, in Watt.
`pod_gpu_temperature`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`	Die Temperatur der GPU(s), die dem Pod zugewiesen sind, in Grad Celsius.
`pod_gpu_utilization`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	Die prozentuale Auslastung der GPU(s), die dem Pod zugewiesen sind.
`pod_gpu_tensor_core_utilization`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	Die prozentuale Auslastung der Tensorkerne auf den GPU (s), die dem Pod zugewiesen sind.

Detaillierte GPU-Überwachung

Ab 1.300062.0 der Version des CloudWatch Agenten unterstützt Container Insights mit verbesserter Observability für Amazon EKS eine detaillierte GPU-Überwachung mit Erfassungsintervallen von unter einer Minute. Dadurch werden Lücken bei der Überwachung von Inferenz-Workloads mit maschinellem Lernen mit kurzer Dauer geschlossen, die in den standardmäßigen Erfassungsintervallen möglicherweise völlig übersehen werden. Der CloudWatch Agent muss mit der Add-On-Version von CloudWatch Observability EKS oder höher installiert werden. v4.7.0-eksbuild.1 Weitere Informationen finden Sie unter Installieren Sie den CloudWatch Agenten mit dem Amazon CloudWatch Observability EKS-Add-on oder dem Helm-Diagramm.

Standardmäßig werden GPU-Metriken in Intervallen von 60 Sekunden gesammelt und aufgenommen. Wenn die detaillierte Überwachung aktiviert ist, erfasst der CloudWatch Agent GPU-Metriken in Intervallen von weniger als einer Minute (mindestens 1 Sekunde). Metriken werden jedoch weiterhin in Intervallen von 1 Minute erfasst. CloudWatch Sie können jedoch statistische Aggregationen (wie Minimum, Maximum und Perzentile wie p90) der Datenpunkte unter einer Minute innerhalb jedes Zeitraums von einer Minute abfragen, um genaue Daten zur GPU-Auslastung und eine bessere Ressourcenoptimierung zu erhalten.

Konfiguration

Um eine detaillierte GPU-Überwachung zu ermöglichen, aktualisieren Sie Ihre CloudWatch Agentenkonfiguration so, dass sie den accelerated_compute_gpu_metrics_collection_interval Parameter in den Abschnitt einbezieht, wie im folgenden Beispiel gezeigt. kubernetes


{  
    "logs": {  
        "metrics_collected": {  
            "kubernetes": {  
                "cluster_name": "MyCluster",  
                "enhanced_container_insights": true,  
                "accelerated_compute_metrics": true,  
                "accelerated_compute_gpu_metrics_collection_interval": 1  
            }  
        }  
    }  
}

Der accelerated_compute_gpu_metrics_collection_interval Parameter akzeptiert Werte in Sekunden mit einem Mindestwert von 1 Sekunde. Wenn Sie ihn auf einstellen, werden Erfassungsintervalle von 1 Sekunde 1 aktiviert. Wenn dieser Parameter nicht angegeben ist, wird das Standardintervall von 60 Sekunden verwendet.

Vollständige Anweisungen zur Konfiguration finden Sie unterDen CloudWatch Agenten für die Erfassung von Cluster-Metriken einrichten.

AWS Neuronenmetriken für AWS Trainium und Inferentia AWS

Ab 1.300036.0 der Version des CloudWatch Agenten erfasst Container Insights mit verbesserter Observability für Amazon EKS standardmäßig beschleunigte Rechenmetriken von AWS Trainium- und AWS Inferentia-Beschleunigern. Der CloudWatch Agent muss mit der Add-On-Version von CloudWatch Observability EKS oder höher installiert werden. v1.5.0-eksbuild.1 Weitere Informationen zu den Add-Ons finden Sie unter Installieren Sie den CloudWatch Agenten mit dem Amazon CloudWatch Observability EKS-Add-on oder dem Helm-Diagramm. Weitere Informationen zu AWS -Trainium finden Sie unter AWS Trainium. Weitere Informationen zu AWS Inferentia finden Sie unter Inferentia.AWS

Damit Container Insights AWS Neuron-Metriken sammeln kann, müssen Sie die folgenden Voraussetzungen erfüllen:

Sie müssen Container Insights mit erweiterter Observability für Amazon EKS mit der Zusatzversion Amazon CloudWatch Observability EKS v1.5.0-eksbuild.1 oder höher verwenden.
Der Neuron-Treiber muss auf den Knoten des Clusters installiert sein.
Das Neuron-Geräte-Plugin muss auf dem Cluster installiert sein. Beispielsweise AMIs sind die für Amazon EKS optimierten Accelerated mit den erforderlichen Komponenten ausgestattet.

Die Metriken, die erfasst werden, sind in der Tabelle in diesem Abschnitt aufgeführt. Die Metriken werden für AWS Trainium, AWS Inferentia und Inferentia2 gesammelt. AWS

Der CloudWatch Agent sammelt diese Metriken vom Neuron-Monitor und führt die erforderliche Korrelation der Kubernetes-Ressourcen durch, um Metriken auf Pod- und Container-Ebene bereitzustellen

Metrikname Dimensionen Description

Metrikname	Dimensionen	Description
`container_neuroncore_utilization`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	NeuronCore Nutzung der dem Container NeuronCore zugewiesenen Daten während des erfassten Zeitraums. Einheit: Prozent
`container_neuroncore_memory_usage_constants`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	Die Menge an Gerätespeicher, die während des Trainings von dem NeuronCore , der dem Container zugewiesen wurde, für Konstanten verwendet wird (oder für Gewichte während der Inferenz). Einheit: Byte
`container_neuroncore_memory_usage_model_code`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	Die Größe des Gerätespeichers, der von dem, der dem Container zugewiesen ist NeuronCore , für den ausführbaren Code der Modelle verwendet wird. Einheit: Byte
`container_neuroncore_memory_usage_model_shared_scratchpad`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	Die Größe des Gerätespeichers, der für das Scratchpad verwendet wird, das von den Modellen gemeinsam genutzt wird NeuronCore , das dem Container zugewiesen ist. Dieser Speicherbereich ist für die Modelle reserviert. Einheit: Byte
`container_neuroncore_memory_usage_runtime_memory`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	Die Größe des Gerätespeichers, der von dem dem Container NeuronCore zugewiesenen Gerät für die Neuron-Laufzeit verwendet wird. Einheit: Byte
`container_neuroncore_memory_usage_tensors`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	Die Größe des Gerätespeichers, der von dem dem Container NeuronCore zugewiesenen Gerät für Tensoren verwendet wird. Einheit: Byte
`container_neuroncore_memory_usage_total`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	Die Gesamtmenge des Speichers, der von dem dem Container NeuronCore zugewiesenen Speicherplatz verwendet wird. Einheit: Byte
`container_neurondevice_hw_ecc_events_total`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`	Die Anzahl der korrigierten und nicht korrigierten ECC-Ereignisse für den On-Chip-SRAM und den Gerätespeicher des Neuron-Geräts auf dem Knoten. Einheit: Anzahl
`pod_neuroncore_utilization`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	Die NeuronCore Auslastung des dem Pod NeuronCore zugewiesenen Zeitraums während des erfassten Zeitraums. Einheit: Prozent
`pod_neuroncore_memory_usage_constants`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	Die Größe des Gerätespeichers, der während des Trainings für Konstanten verwendet wird NeuronCore , die dem Pod zugewiesen wurden (oder für Gewichte während der Inferenz). Einheit: Byte
`pod_neuroncore_memory_usage_model_code`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	Die Größe des Gerätespeichers, der von dem, der dem Pod zugewiesen wurde NeuronCore , für den ausführbaren Code der Modelle verwendet wird. Einheit: Byte
`pod_neuroncore_memory_usage_model_shared_scratchpad`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	Die Größe des Gerätespeichers, der für das Scratchpad verwendet wird, das von den Modellen gemeinsam genutzt wird NeuronCore , das dem Pod zugewiesen ist. Dieser Speicherbereich ist für die Modelle reserviert. Einheit: Byte
`pod_neuroncore_memory_usage_runtime_memory`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	Die Größe des Gerätespeichers, der von dem dem Pod NeuronCore zugewiesenen Gerät für die Neuron-Laufzeit verwendet wird. Einheit: Byte
`pod_neuroncore_memory_usage_tensors`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	Die Größe des Gerätespeichers, der von dem dem Pod NeuronCore zugewiesenen Gerät für Tensoren verwendet wird. Einheit: Byte
`pod_neuroncore_memory_usage_total`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	Die Gesamtmenge des Speichers, der von dem dem Pod NeuronCore zugewiesenen Speicherplatz verwendet wird. Einheit: Byte
`pod_neurondevice_hw_ecc_events_total`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`	Die Anzahl der korrigierten und nicht korrigierten ECC-Ereignisse für den On-Chip-SRAM und den Gerätespeicher des Neuron-Geräts, das einem Pod zugewiesen wurde. Einheit: Byte
`node_neuroncore_utilization`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	Die NeuronCore Auslastung des dem Knoten NeuronCore zugewiesenen Zeitraums während des erfassten Zeitraums. Einheit: Prozent
`node_neuroncore_memory_usage_constants`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	Die Menge des Gerätespeichers, der während des Trainings für Konstanten verwendet wird NeuronCore , die dem Knoten zugewiesen wurden (oder Gewichte während der Inferenz). Einheit: Byte
`node_neuroncore_memory_usage_model_code`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	Die Größe des Gerätespeichers, der von dem, der dem Knoten zugewiesen ist NeuronCore , für den ausführbaren Code der Modelle verwendet wird. Einheit: Byte
`node_neuroncore_memory_usage_model_shared_scratchpad`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	Die Größe des Gerätespeichers, der für das Scratchpad verwendet wird, das von den Modellen gemeinsam genutzt wird NeuronCore , das dem Knoten zugewiesen ist. Dieser Speicherbereich ist für die Modelle reserviert. Einheit: Byte
`node_neuroncore_memory_usage_runtime_memory`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	Die Menge an Gerätespeicher, die von dem, der dem Knoten zugewiesen ist NeuronCore, für die Neuron-Laufzeit verwendet wird. Einheit: Byte
`node_neuroncore_memory_usage_tensors`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	Die Menge des Gerätespeichers, der von dem für Tensoren verwendet wird NeuronCore , der dem Knoten zugewiesen ist. Einheit: Byte
`node_neuroncore_memory_usage_total`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	Die Gesamtmenge des Speichers, der von dem verwendet wird NeuronCore , der dem Knoten zugewiesen ist. Einheit: Byte
`node_neuron_execution_errors_total`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName`	Die Gesamtzahl der Ausführungsfehler auf dem Knoten. Dies wird vom CloudWatch Agenten berechnet, indem er die Fehler der folgenden Typen aggregiert:`generic`,`numerical`,`transient`, `modelruntime`, und `hardware` Einheit: Anzahl
`node_neurondevice_runtime_memory_used_bytes`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName`	Die gesamte Speicherauslastung des Neuron-Geräts auf dem Knoten in Byte. Einheit: Byte
`node_neuron_execution_latency`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName`	In Sekunden, die Latenz für eine Ausführung auf dem Knoten, gemessen durch die Neuron-Laufzeit. Einheit: Sekunden
`node_neurondevice_hw_ecc_events_total`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `NodeName`, `NeuronDevice`	Die Anzahl der korrigierten und nicht korrigierten ECC-Ereignisse für den On-Chip-SRAM und den Gerätespeicher des Neuron-Geräts auf dem Knoten. Einheit: Anzahl

container_neuroncore_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

NeuronCore Nutzung der dem Container NeuronCore zugewiesenen Daten während des erfassten Zeitraums.

Einheit: Prozent

container_neuroncore_memory_usage_constants

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

Die Menge an Gerätespeicher, die während des Trainings von dem NeuronCore , der dem Container zugewiesen wurde, für Konstanten verwendet wird (oder für Gewichte während der Inferenz).

Einheit: Byte

container_neuroncore_memory_usage_model_code

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

Die Größe des Gerätespeichers, der von dem, der dem Container zugewiesen ist NeuronCore , für den ausführbaren Code der Modelle verwendet wird.

Einheit: Byte

container_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

Die Größe des Gerätespeichers, der für das Scratchpad verwendet wird, das von den Modellen gemeinsam genutzt wird NeuronCore , das dem Container zugewiesen ist. Dieser Speicherbereich ist für die Modelle reserviert.

Einheit: Byte

container_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

Die Größe des Gerätespeichers, der von dem dem Container NeuronCore zugewiesenen Gerät für die Neuron-Laufzeit verwendet wird.

Einheit: Byte

container_neuroncore_memory_usage_tensors

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

Die Größe des Gerätespeichers, der von dem dem Container NeuronCore zugewiesenen Gerät für Tensoren verwendet wird.

Einheit: Byte

container_neuroncore_memory_usage_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

Die Gesamtmenge des Speichers, der von dem dem Container NeuronCore zugewiesenen Speicherplatz verwendet wird.

Einheit: Byte

container_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice

Die Anzahl der korrigierten und nicht korrigierten ECC-Ereignisse für den On-Chip-SRAM und den Gerätespeicher des Neuron-Geräts auf dem Knoten.

Einheit: Anzahl

pod_neuroncore_utilization

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

Die NeuronCore Auslastung des dem Pod NeuronCore zugewiesenen Zeitraums während des erfassten Zeitraums.

Einheit: Prozent

pod_neuroncore_memory_usage_constants

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

Die Größe des Gerätespeichers, der während des Trainings für Konstanten verwendet wird NeuronCore , die dem Pod zugewiesen wurden (oder für Gewichte während der Inferenz).

Einheit: Byte

pod_neuroncore_memory_usage_model_code

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

Die Größe des Gerätespeichers, der von dem, der dem Pod zugewiesen wurde NeuronCore , für den ausführbaren Code der Modelle verwendet wird.

Einheit: Byte

pod_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

Die Größe des Gerätespeichers, der für das Scratchpad verwendet wird, das von den Modellen gemeinsam genutzt wird NeuronCore , das dem Pod zugewiesen ist. Dieser Speicherbereich ist für die Modelle reserviert.

Einheit: Byte

pod_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

Die Größe des Gerätespeichers, der von dem dem Pod NeuronCore zugewiesenen Gerät für die Neuron-Laufzeit verwendet wird.

Einheit: Byte

pod_neuroncore_memory_usage_tensors

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

Die Größe des Gerätespeichers, der von dem dem Pod NeuronCore zugewiesenen Gerät für Tensoren verwendet wird.

Einheit: Byte

pod_neuroncore_memory_usage_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

Die Gesamtmenge des Speichers, der von dem dem Pod NeuronCore zugewiesenen Speicherplatz verwendet wird.

Einheit: Byte

pod_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice

Die Anzahl der korrigierten und nicht korrigierten ECC-Ereignisse für den On-Chip-SRAM und den Gerätespeicher des Neuron-Geräts, das einem Pod zugewiesen wurde.

Einheit: Byte

node_neuroncore_utilization

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

Die NeuronCore Auslastung des dem Knoten NeuronCore zugewiesenen Zeitraums während des erfassten Zeitraums.

Einheit: Prozent

node_neuroncore_memory_usage_constants

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

Die Menge des Gerätespeichers, der während des Trainings für Konstanten verwendet wird NeuronCore , die dem Knoten zugewiesen wurden (oder Gewichte während der Inferenz).

Einheit: Byte

node_neuroncore_memory_usage_model_code

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

Die Größe des Gerätespeichers, der von dem, der dem Knoten zugewiesen ist NeuronCore , für den ausführbaren Code der Modelle verwendet wird.

Einheit: Byte

node_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

Die Größe des Gerätespeichers, der für das Scratchpad verwendet wird, das von den Modellen gemeinsam genutzt wird NeuronCore , das dem Knoten zugewiesen ist. Dieser Speicherbereich ist für die Modelle reserviert.

Einheit: Byte

node_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

Die Menge an Gerätespeicher, die von dem, der dem Knoten zugewiesen ist NeuronCore, für die Neuron-Laufzeit verwendet wird.

Einheit: Byte

node_neuroncore_memory_usage_tensors

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

Die Menge des Gerätespeichers, der von dem für Tensoren verwendet wird NeuronCore , der dem Knoten zugewiesen ist.

Einheit: Byte

node_neuroncore_memory_usage_total

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

Die Gesamtmenge des Speichers, der von dem verwendet wird NeuronCore , der dem Knoten zugewiesen ist.

Einheit: Byte

node_neuron_execution_errors_total

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

Die Gesamtzahl der Ausführungsfehler auf dem Knoten. Dies wird vom CloudWatch Agenten berechnet, indem er die Fehler der folgenden Typen aggregiert:generic,numerical,transient, modelruntime, und hardware

Einheit: Anzahl

node_neurondevice_runtime_memory_used_bytes

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

Die gesamte Speicherauslastung des Neuron-Geräts auf dem Knoten in Byte.

Einheit: Byte

node_neuron_execution_latency

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

In Sekunden, die Latenz für eine Ausführung auf dem Knoten, gemessen durch die Neuron-Laufzeit.

Einheit: Sekunden

node_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, NodeName, NeuronDevice

Die Anzahl der korrigierten und nicht korrigierten ECC-Ereignisse für den On-Chip-SRAM und den Gerätespeicher des Neuron-Geräts auf dem Knoten.

Einheit: Anzahl

AWS Metriken für Elastic Fabric Adapter (EFA)

Ab 1.300037.0 der Version des CloudWatch Agenten sammelt Container Insights mit verbesserter Observability für Amazon EKS AWS Elastic Fabric Adapter (EFA) -Metriken aus Amazon EKS-Clustern auf Linux-Instances. Der CloudWatch Agent muss mit der Add-On-Version v1.5.2-eksbuild.1 von CloudWatch Observability EKS oder höher installiert werden. Weitere Informationen zu den Add-Ons finden Sie unter Installieren Sie den CloudWatch Agenten mit dem Amazon CloudWatch Observability EKS-Add-on oder dem Helm-Diagramm. Weitere Informationen zu AWS Elastic Fabric Adapter (EFA) finden Sie unter Elastic Fabric Adapter.

Damit Container Insights Metriken für AWS Elastic Fabric-Adapter erfassen kann, müssen Sie die folgenden Voraussetzungen erfüllen:

Sie müssen Container Insights mit erweiterter Observability für Amazon EKS mit der Zusatzversion Amazon CloudWatch Observability EKS v1.5.2-eksbuild.1 oder höher verwenden.
Das EFA-Geräte-Plugin muss auf dem Cluster installiert sein. Weitere Informationen finden Sie unter aws-efa-k8 s-device-plugin von. GitHub

Die Metriken, die erfasst werden, sind in der folgenden Tabelle aufgeführt.

Metrikname Dimensionen Description

Metrikname	Dimensionen	Description
`container_efa_rx_bytes`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NetworkInterfaceId`	Die Anzahl der Bytes, die pro Sekunde von EFA-Geräten empfangen werden, die dem Container zugewiesen sind. Einheit: Byte/Sekunde
`container_efa_tx_bytes`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NetworkInterfaceId`	Die Anzahl der Bytes, die pro Sekunde von EFA-Geräten übertragen werden, die dem Container zugewiesen sind. Einheit: Byte/Sekunde
`container_efa_rx_dropped`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NetworkInterfaceId`	Die Anzahl der empfangenen und dann von den EFA-Geräten, die dem Container zugewiesen sind, verworfenen Pakete. Einheit: Anzahl/Sekunde
`container_efa_rdma_read_bytes`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NetworkInterfaceId`	Die Anzahl der Byte pro Sekunde, die mithilfe von Lesevorgängen mit direktem Remote-Zugriff auf den Speicher durch die dem Container zugewiesenen EFA-Geräte empfangen wurden. Einheit: Byte/Sekunde
`container_efa_rdma_write_bytes`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NetworkInterfaceId`	Die Anzahl der Byte pro Sekunde, die mithilfe von Lesevorgängen mit direktem Remote-Zugriff auf den Speicher durch die dem Container zugewiesenen EFA-Geräte übertragen wurden. Einheit: Byte/Sekunde
`container_efa_rdma_write_recv_bytes`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NetworkInterfaceId`	Die Anzahl der Byte pro Sekunde, die während Schreibvorgängen mit direktem Remote-Zugriff auf den Speicher durch die dem Container zugewiesenen EFA-Geräte empfangen wurden. Einheit: Byte/Sekunde
`pod_efa_rx_bytes`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NetworkInterfaceId`	Die Anzahl der Bytes, die pro Sekunde von EFA-Geräten empfangen werden, die dem Pod zugewiesen sind. Einheit: Byte/Sekunde
`pod_efa_tx_bytes`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NetworkInterfaceId`	Die Anzahl der Bytes, die pro Sekunde von EFA-Geräten übertragen werden, die dem Pod zugewiesen sind. Einheit: Byte/Sekunde
`pod_efa_rx_dropped`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NetworkInterfaceId`	Die Anzahl der empfangenen und dann von den EFA-Geräten, die dem Pod zugewiesen sind, verworfenen Pakete. Einheit: Anzahl/Sekunde
`pod_efa_rdma_read_bytes`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NetworkInterfaceId`	Die Anzahl der Byte pro Sekunde, die mithilfe von Lesevorgängen mit direktem Remote-Zugriff auf den Speicher durch die dem Pod zugewiesenen EFA-Geräte empfangen wurden. Einheit: Byte/Sekunde
`pod_efa_rdma_write_bytes`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NetworkInterfaceId`	Die Anzahl der Byte pro Sekunde, die mithilfe von Lesevorgängen mit direktem Remote-Zugriff auf den Speicher durch die dem Pod zugewiesenen EFA-Geräte übertragen wurden. Einheit: Byte/Sekunde
`pod_efa_rdma_write_recv_bytes`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NetworkInterfaceId`	Die Anzahl der Byte pro Sekunde, die während Schreibvorgängen mit direktem Remote-Zugriff auf den Speicher durch die dem Pod zugewiesenen EFA-Geräte empfangen wurden. Einheit: Byte/Sekunde
`node_efa_rx_bytes`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `NetworkInterfaceId`	Die Anzahl der Bytes, die pro Sekunde von EFA-Geräten empfangen werden, die dem Knoten zugewiesen sind. Einheit: Byte/Sekunde
`node_efa_tx_bytes`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `NetworkInterfaceId`	Die Anzahl der Bytes, die pro Sekunde von EFA-Geräten übertragen werden, die dem Knoten zugewiesen sind. Einheit: Byte/Sekunde
`node_efa_rx_dropped`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `NetworkInterfaceId`	Die Anzahl der empfangenen und dann von den EFA-Geräten, die dem Knoten zugewiesen sind, verworfenen Pakete. Einheit: Anzahl/Sekunde
`node_efa_rdma_read_bytes`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `NetworkInterfaceId`	Die Anzahl der Byte pro Sekunde, die mithilfe von Lesevorgängen mit direktem Remote-Zugriff auf den Speicher durch die dem Knoten zugewiesenen EFA-Geräte empfangen wurden. Einheit: Byte/Sekunde
`node_efa_rdma_write_bytes`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `NetworkInterfaceId`	Die Anzahl der Byte pro Sekunde, die mithilfe von Lesevorgängen mit direktem Remote-Zugriff auf den Speicher durch die dem Pod zugewiesenen EFA-Geräte übertragen wurden. Einheit: Byte/Sekunde
`node_efa_rdma_write_recv_bytes`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `NetworkInterfaceId`	Die Anzahl der Byte pro Sekunde, die während Schreibvorgängen mit direktem Remote-Zugriff auf den Speicher durch die dem Knoten zugewiesenen EFA-Geräte empfangen wurden. Einheit: Byte/Sekunde

container_efa_rx_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

Die Anzahl der Bytes, die pro Sekunde von EFA-Geräten empfangen werden, die dem Container zugewiesen sind.

Einheit: Byte/Sekunde

container_efa_tx_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

Die Anzahl der Bytes, die pro Sekunde von EFA-Geräten übertragen werden, die dem Container zugewiesen sind.

Einheit: Byte/Sekunde

container_efa_rx_dropped

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

Die Anzahl der empfangenen und dann von den EFA-Geräten, die dem Container zugewiesen sind, verworfenen Pakete.

Einheit: Anzahl/Sekunde

container_efa_rdma_read_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

Die Anzahl der Byte pro Sekunde, die mithilfe von Lesevorgängen mit direktem Remote-Zugriff auf den Speicher durch die dem Container zugewiesenen EFA-Geräte empfangen wurden.

Einheit: Byte/Sekunde

container_efa_rdma_write_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

Die Anzahl der Byte pro Sekunde, die mithilfe von Lesevorgängen mit direktem Remote-Zugriff auf den Speicher durch die dem Container zugewiesenen EFA-Geräte übertragen wurden.

Einheit: Byte/Sekunde

container_efa_rdma_write_recv_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

Die Anzahl der Byte pro Sekunde, die während Schreibvorgängen mit direktem Remote-Zugriff auf den Speicher durch die dem Container zugewiesenen EFA-Geräte empfangen wurden.

Einheit: Byte/Sekunde

pod_efa_rx_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

Die Anzahl der Bytes, die pro Sekunde von EFA-Geräten empfangen werden, die dem Pod zugewiesen sind.

Einheit: Byte/Sekunde

pod_efa_tx_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

Die Anzahl der Bytes, die pro Sekunde von EFA-Geräten übertragen werden, die dem Pod zugewiesen sind.

Einheit: Byte/Sekunde

pod_efa_rx_dropped

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

Die Anzahl der empfangenen und dann von den EFA-Geräten, die dem Pod zugewiesen sind, verworfenen Pakete.

Einheit: Anzahl/Sekunde

pod_efa_rdma_read_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

Die Anzahl der Byte pro Sekunde, die mithilfe von Lesevorgängen mit direktem Remote-Zugriff auf den Speicher durch die dem Pod zugewiesenen EFA-Geräte empfangen wurden.

Einheit: Byte/Sekunde

pod_efa_rdma_write_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

Die Anzahl der Byte pro Sekunde, die mithilfe von Lesevorgängen mit direktem Remote-Zugriff auf den Speicher durch die dem Pod zugewiesenen EFA-Geräte übertragen wurden.

Einheit: Byte/Sekunde

pod_efa_rdma_write_recv_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

Die Anzahl der Byte pro Sekunde, die während Schreibvorgängen mit direktem Remote-Zugriff auf den Speicher durch die dem Pod zugewiesenen EFA-Geräte empfangen wurden.

Einheit: Byte/Sekunde

node_efa_rx_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

Die Anzahl der Bytes, die pro Sekunde von EFA-Geräten empfangen werden, die dem Knoten zugewiesen sind.

Einheit: Byte/Sekunde

node_efa_tx_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

Die Anzahl der Bytes, die pro Sekunde von EFA-Geräten übertragen werden, die dem Knoten zugewiesen sind.

Einheit: Byte/Sekunde

node_efa_rx_dropped

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

Die Anzahl der empfangenen und dann von den EFA-Geräten, die dem Knoten zugewiesen sind, verworfenen Pakete.

Einheit: Anzahl/Sekunde

node_efa_rdma_read_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

Die Anzahl der Byte pro Sekunde, die mithilfe von Lesevorgängen mit direktem Remote-Zugriff auf den Speicher durch die dem Knoten zugewiesenen EFA-Geräte empfangen wurden.

Einheit: Byte/Sekunde

node_efa_rdma_write_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

Die Anzahl der Byte pro Sekunde, die mithilfe von Lesevorgängen mit direktem Remote-Zugriff auf den Speicher durch die dem Pod zugewiesenen EFA-Geräte übertragen wurden.

Einheit: Byte/Sekunde

node_efa_rdma_write_recv_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

Die Anzahl der Byte pro Sekunde, die während Schreibvorgängen mit direktem Remote-Zugriff auf den Speicher durch die dem Knoten zugewiesenen EFA-Geräte empfangen wurden.

Einheit: Byte/Sekunde

Amazon SageMaker AI HyperPod -Metriken

Ab v2.0.1-eksbuild.1 der Version des CloudWatch Observability EKS-Add-ons sammelt Container Insights mit verbesserter Observability für Amazon EKS automatisch Amazon SageMaker AI HyperPod Metriken aus Amazon EKS-Clustern. Weitere Informationen zu den Add-Ons finden Sie unter Installieren Sie den CloudWatch Agenten mit dem Amazon CloudWatch Observability EKS-Add-on oder dem Helm-Diagramm. Weitere Informationen zu finden Sie Amazon SageMaker AI HyperPod unter. Amazon SageMaker AI HyperPod

Die Metriken, die erfasst werden, sind in der folgenden Tabelle aufgeführt.

Metrikname Dimensionen Description

Metrikname	Dimensionen	Description
`hyperpod_node_health_status_unschedulable`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Gibt an, ob ein Knoten mit der Bezeichnung `Unschedulable` by gekennzeichnet ist Amazon SageMaker AI HyperPod. Das bedeutet, dass der Knoten tiefgreifende Zustandsprüfungen durchführt und er nicht für die Ausführung von Workloads verfügbar ist. Einheit: Anzahl
`hyperpod_node_health_status_schedulable`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Gibt an, ob ein Knoten mit der Bezeichnung `Schedulable` by gekennzeichnet ist Amazon SageMaker AI HyperPod. Das bedeutet, dass der Knoten grundlegende oder tiefgreifende Zustandsprüfungen bestanden hat und er für die Ausführung von Workloads verfügbar ist. Einheit: Anzahl
`hyperpod_node_health_status_unschedulable_pending_replacement`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Gibt an, ob ein Knoten mit der Bezeichnung `UnschedulablePendingReplacement` by gekennzeichnet ist HyperPod. Das bedeutet, dass der Knoten die tiefgreifenden Zustandsprüfungen oder die Prüfungen des Health Monitoring Agents nicht bestanden hat und einen Ersatz erfordert. Wenn die automatische Knotenwiederherstellung aktiviert ist, wird der Knoten automatisch durch ersetzt Amazon SageMaker AI HyperPod. Einheit: Anzahl
`hyperpod_node_health_status_unschedulable_pending_reboot`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	Gibt an, ob ein Knoten mit der Bezeichnung `UnschedulablePendingReboot` von gekennzeichnet ist Amazon SageMaker AI HyperPod. Das bedeutet, dass der Knoten tiefgreifende Zustandsprüfungen durchführt und ein Neustart erforderlich ist. Wenn die automatische Knotenwiederherstellung aktiviert ist, wird der Knoten automatisch von neu gestartet. Amazon SageMaker AI HyperPod Einheit: Anzahl

hyperpod_node_health_status_unschedulable

ClusterName

ClusterName, InstanceId, NodeName

Gibt an, ob ein Knoten mit der Bezeichnung Unschedulable by gekennzeichnet ist Amazon SageMaker AI HyperPod. Das bedeutet, dass der Knoten tiefgreifende Zustandsprüfungen durchführt und er nicht für die Ausführung von Workloads verfügbar ist.

Einheit: Anzahl

hyperpod_node_health_status_schedulable

ClusterName

ClusterName, InstanceId, NodeName

Gibt an, ob ein Knoten mit der Bezeichnung Schedulable by gekennzeichnet ist Amazon SageMaker AI HyperPod. Das bedeutet, dass der Knoten grundlegende oder tiefgreifende Zustandsprüfungen bestanden hat und er für die Ausführung von Workloads verfügbar ist.

Einheit: Anzahl

hyperpod_node_health_status_unschedulable_pending_replacement

ClusterName

ClusterName, InstanceId, NodeName

Gibt an, ob ein Knoten mit der Bezeichnung UnschedulablePendingReplacement by gekennzeichnet ist HyperPod. Das bedeutet, dass der Knoten die tiefgreifenden Zustandsprüfungen oder die Prüfungen des Health Monitoring Agents nicht bestanden hat und einen Ersatz erfordert.

Wenn die automatische Knotenwiederherstellung aktiviert ist, wird der Knoten automatisch durch ersetzt Amazon SageMaker AI HyperPod.

Einheit: Anzahl

hyperpod_node_health_status_unschedulable_pending_reboot

ClusterName

ClusterName, InstanceId, NodeName

Gibt an, ob ein Knoten mit der Bezeichnung UnschedulablePendingReboot von gekennzeichnet ist Amazon SageMaker AI HyperPod. Das bedeutet, dass der Knoten tiefgreifende Zustandsprüfungen durchführt und ein Neustart erforderlich ist.

Wenn die automatische Knotenwiederherstellung aktiviert ist, wird der Knoten automatisch von neu gestartet. Amazon SageMaker AI HyperPod

Einheit: Anzahl

Amazon NVMe EBS-Treibermetriken

Ab 1.300056.0 der Version des CloudWatch Agenten erfasst Container Insights mit verbesserter Observability für Amazon EKS automatisch Amazon NVMe EBS-Treibermetriken aus Amazon EKS-Clustern auf Linux-Instances. Der CloudWatch Agent muss mit der Add-On-Version von CloudWatch Observability Amazon EKS 4.1.0 oder höher installiert werden. Weitere Informationen zu den Add-Ons finden Sie unter Installieren Sie den CloudWatch Agenten mit dem Amazon CloudWatch Observability EKS-Add-on oder dem Helm-Diagramm. Weitere Informationen zu Amazon EBS finden Sie unter Amazon EBS – detaillierte Leistungsstatistiken.

Damit Container Insights Amazon NVMe EBS-Treibermetriken erfassen kann, müssen Sie die folgenden Voraussetzungen erfüllen:

Sie müssen Container Insights mit erweiterter Observability für Amazon EKS mit der Zusatzversion CloudWatch Observability Amazon EKS 4.1.0 oder höher verwenden.
Das EBS-CSI-Treiber-Add-On 1.42.0 der das Helm-Chart müssen auf dem Cluster mit aktivierten Metriken installiert sein.
- Um die Metriken bei Nutzung des Amazon-EBS-CSI-Treiber-Add-Ons zu aktivieren, verwenden Sie beim Erstellen oder Aktualisieren des Add-Ons die folgende Option: --configuration-values '{ "node": { "enableMetrics": true } }'
- Um die Metriken bei Nutzung des Helm-Charts zu aktivieren, verwenden Sie beim Erstellen oder Aktualisieren des Add-Ons die folgende Option: --set node.enableMetrics=true

Die Metriken, die erfasst werden, sind in der folgenden Tabelle aufgeführt.

Metrikname	Dimensionen	Description
`node_diskio_ebs_total_read_ops`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	Die Gesamtzahl der abgeschlossenen Lesevorgänge.
`node_diskio_ebs_total_write_ops`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	Die Gesamtzahl der abgeschlossenen Schreibvorgänge.
`node_diskio_ebs_total_read_bytes`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	Die Gesamtzahl der übertragenen und gelesenen Bytes.
`node_diskio_ebs_total_write_bytes`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	Die Gesamtzahl der übertragenen und geschriebenen Bytes.
`node_diskio_ebs_total_read_time`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	Die Gesamtzeit für alle abgeschlossenen Lesevorgänge in Mikrosekunden.
`node_diskio_ebs_total_write_time`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	Die Gesamtzeit für alle abgeschlossenen Schreibvorgänge in Mikrosekunden.
`node_diskio_ebs_volume_performance_exceeded_iops`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	Die Gesamtzeit in Mikrosekunden, in welcher der IOPS-Bedarf die vom Volume bereitgestellte IOPS-Leistung überstiegen hat.
`node_diskio_ebs_volume_performance_exceeded_tp`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	Die Gesamtzeit in Mikrosekunden, in welcher der Durchsatzbedarf die vom Volume bereitgestellte Durchsatzleistung überstiegen hat.
`node_diskio_ebs_ec2_instance_performance_exceeded_iops`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	Die Gesamtzeit in Mikrosekunden, in der das EBS-Volume die maximale IOPS-Leistung der angeschlossenen EC2 Amazon-Instance überschritten hat.
`node_diskio_ebs_ec2_instance_performance_exceeded_tp`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	Die Gesamtzeit in Mikrosekunden, in der das EBS-Volume die maximale Durchsatzleistung der verbundenen EC2 Amazon-Instance überschritten hat.
`node_diskio_ebs_volume_queue_length`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	Die Anzahl der Lese- und Schreibvorgänge, die auf Abschluss warten.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Amazon-ECS-Container-Insights-Metriken

Container-Insights-Metriken für Amazon EKS und Kubernetes