Amazon EKS およびオブザーバビリティが強化された Kubernetes Container Insights - Amazon CloudWatch

Amazon EKS およびオブザーバビリティが強化された Kubernetes Container Insights

次の表には、オブザーバビリティが強化された Container Insights が Amazon EKS および Kubernetes 用に収集するメトリクスおよびディメンションについて一覧表示されます。これらのメトリクスは ContainerInsights 名前空間にあります。詳細については、「メトリクス」を参照してください。

コンソールでオブザーバビリティメトリクスが強化された Container Insights が表示されない場合、オブザーバビリティが強化された Container Insights の設定が完了していることを確認します。オブザーバビリティが強化された Container Insights が完全に設定されるまで、メトリクスは表示されません。詳細については、「Container Insights の設定」を参照してください。

Amazon EKS アドオンのバージョン 1.5.0 以降、または CloudWatch エージェントのバージョン 1.300035.0 を使用している場合、次の表に示されているほとんどのメトリクスは Linux ノードと Windows ノードの両方で収集されます。Windows で収集されないメトリクスを確認するには、表の「メトリクス名」列を参照してください。

クラスターおよびサービスレベルで集約されたメトリクスを配信する以前のバージョンの Container Insights では、メトリクスはカスタムメトリクスとして課金されます。Amazon EKS 向けにオブザーバビリティが強化された Container Insights では、観察結果毎に Container Insights メトリクスに課金されます。保存されたメトリクスまたは取り込まれたログ単位では課金されません。CloudWatch の料金の詳細については、「Amazon CloudWatch の料金」をご覧ください。

注記

Windows で、ホストプロセスコンテナの pod_network_rx_bytespod_network_tx_bytes などのネットワークメトリクスは収集されません。

RedHat OpenShift on AWS (ROSA) クラスター では、node_diskio_io_serviced_totalnode_diskio_io_service_bytes_total などの diskio メトリクスは収集されません。

メトリクス名 ディメンション 説明

cluster_failed_node_count

ClusterName

クラスター内の失敗したワーカーノードの数。ノードの状態に何らかの問題がある場合は、そのノードは失敗したとみなされます。詳細については、Kubernetes ドキュメントの 「Conditions (状態)」を参照してください。

cluster_node_count

ClusterName

クラスター内のワーカーノードの総数。

namespace_number_of_running_pods

Namespace ClusterName

ClusterName

使用しているディメンションによって指定されたリソースの名前空間ごとに実行されているポッドの数。

node_cpu_limit

ClusterName

ClusterName, InstanceId, NodeName

このクラスター内の単一のノードに割り当てることができる CPU ユニットの最大数。

node_cpu_reserved_capacity

NodeName, ClusterName, InstanceId

ClusterName

ノードコンポーネント (kubelet、kube-proxy、Docker など) に予約されている CPU ユニットの割合。

計算式: node_cpu_request / node_cpu_limit

注記

node_cpu_request はメトリクスとして直接報告されませんが、パフォーマンスログイベント内のフィールドです。詳細については、「Amazon EKS と Kubernetes のパフォーマンスログイベントの関連フィールド」を参照してください。

node_cpu_usage_total

ClusterName

ClusterName, InstanceId, NodeName

クラスターのノードで使用されている CPU ユニットの数。

node_cpu_utilization

NodeName, ClusterName, InstanceId

ClusterName

クラスター内のノードで使用されている CPU ユニットの合計使用率。

計算式: node_cpu_usage_total / node_cpu_limit

node_filesystem_utilization

NodeName, ClusterName, InstanceId

ClusterName

クラスター内のノードで使用されているファイルシステム容量の合計使用率。

計算式: node_filesystem_usage / node_filesystem_capacity

注記

node_filesystem_usage および node_filesystem_capacity はメトリクスとして直接報告されませんが、パフォーマンスログイベント内のフィールドです。詳細については、「Amazon EKS と Kubernetes のパフォーマンスログイベントの関連フィールド」を参照してください。

node_memory_limit

ClusterName

ClusterName, InstanceId, NodeName

このクラスター内の単一のノードに割り当てることができるメモリの最大量 (バイト単位)。

node_filesystem_inodes

Windows ではご利用いただけません。

ClusterName

ClusterName, InstanceId, NodeName

ノード上の inode (使用済みおよび未使用) の総数。

node_filesystem_inodes_free

Windows ではご利用いただけません。

ClusterName

ClusterName, InstanceId, NodeName

ノード上の未使用の inode の数。

node_gpu_limit

ClusterName

ClusterName, InstanceId, NodeName

ノードで使用可能な GPU の合計数。

node_gpu_usage_total

ClusterName

ClusterName, InstanceId, NodeName

ノードで実行中のポッドによって使用されている GPU の数。

node_gpu_reserved_capacity

ClusterName

ClusterName, InstanceId, NodeName

node_memory_reserved_capacity

NodeName, ClusterName, InstanceId

ClusterName

クラスター内のノードで現在使用されているメモリの割合。

計算式: node_memory_request / node_memory_limit

注記

node_memory_request はメトリクスとして直接報告されませんが、パフォーマンスログイベント内のフィールドです。詳細については、「Amazon EKS と Kubernetes のパフォーマンスログイベントの関連フィールド」を参照してください。

node_memory_utilization

NodeName, ClusterName, InstanceId

ClusterName

ノードによって現在使用されているメモリの割合。これは、ノードのメモリ制限で割られたノードのメモリ使用量の割合です。

計算式: node_memory_working_set / node_memory_limit

node_memory_working_set

ClusterName

ClusterName, InstanceId, NodeName

クラスターで現在稼働しているノードのセットで使用されているメモリの量 (バイト単位)。

node_network_total_bytes

NodeName, ClusterName, InstanceId

ClusterName

クラスターのノードごとにネットワーク経由で送信および受信された合計バイト数。

計算式: node_network_rx_bytes + node_network_tx_bytes

注記

node_network_rx_bytes および node_network_tx_bytes はメトリクスとして直接報告されませんが、パフォーマンスログイベント内のフィールドです。詳細については、「Amazon EKS と Kubernetes のパフォーマンスログイベントの関連フィールド」を参照してください。

node_number_of_running_containers

NodeName, ClusterName, InstanceId

ClusterName

クラスターのノードごとに実行中のコンテナの数。

node_number_of_running_pods

NodeName, ClusterName, InstanceId

ClusterName

クラスターのノードごとに実行中のポッドの数。

node_status_allocatable_pods

ClusterName

ClusterName, InstanceId, NodeName

割り当て可能なリソースに基づいてノードに割り当てることができるポッドの数。システムデーモンの予約とハードエビクションのしきい値の考慮後のノードの残りの容量として定義されます。

node_status_capacity_pods

ClusterName

ClusterName, InstanceId, NodeName

容量に基づいてノードに割り当てることができるポッドの数。

node_status_condition_ready

ClusterName

ClusterName, InstanceId, NodeName

ノード ステータスの条件 Ready が、Amazon EC2 ノードに当てはまるかどうかを示します。

node_status_condition_memory_pressure

ClusterName

ClusterName, InstanceId, NodeName

ノードステータスの条件 MemoryPressure が正しいかどうかを示します。

node_status_condition_pid_pressure

ClusterName

ClusterName, InstanceId, NodeName

ノードステータスの条件 PIDPressure が正しいかどうかを示します。

node_status_condition_disk_pressure

ClusterName

ClusterName, InstanceId, NodeName

ノードステータスの条件 OutOfDisk が正しいかどうかを示します。

node_status_condition_unknown

ClusterName

ClusterName, InstanceId, NodeName

ノードステータス条件のいずれかが不明であるかどうかを示します。

node_interface_network_rx_dropped

ClusterName

ClusterName, InstanceId, NodeName

ノード上のネットワークインターフェイスによって受信されたが、その後削除されたパケットの数。

node_interface_network_tx_dropped

ClusterName

ClusterName, InstanceId, NodeName

ノード上のネットワークインターフェイスによって送信される予定だったが、削除されたパケットの数。

node_diskio_io_service_bytes_total

Windows または ROSA クラスターでは使用できません。

ClusterName

ClusterName, InstanceId, NodeName

ノード上のすべての I/O オペレーションにより送信された合計バイト数。

node_diskio_io_serviced_total

Windows または ROSA クラスターでは使用できません。

ClusterName

ClusterName, InstanceId, NodeName

ノード上の I/O オペレーションの総数。

pod_cpu_reserved_capacity

PodName, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, Service

クラスターのポッドごとに予約されている CPU 容量。

計算式: pod_cpu_request / node_cpu_limit

注記

pod_cpu_request はメトリクスとして直接報告されませんが、パフォーマンスログイベント内のフィールドです。詳細については、「Amazon EKS と Kubernetes のパフォーマンスログイベントの関連フィールド」を参照してください。

pod_cpu_utilization

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

ポッドで使用されている CPU ユニットの割合。

計算式: pod_cpu_usage_total / node_cpu_limit

pod_cpu_utilization_over_pod_limit

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

ポッドの制限に対する、ポッドで使用されている CPU ユニットの割合。

計算式: pod_cpu_usage_total / pod_cpu_limit

pod_memory_reserved_capacity

PodName, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, Service

ポッド用に予約されているメモリの割合。

計算式: pod_memory_request / node_memory_limit

注記

pod_memory_request はメトリクスとして直接報告されませんが、パフォーマンスログイベント内のフィールドです。詳細については、「Amazon EKS と Kubernetes のパフォーマンスログイベントの関連フィールド」を参照してください。

pod_memory_utilization

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

ポッドが現在使用しているメモリの割合。

計算式: pod_memory_working_set / node_memory_limit

pod_memory_utilization_over_pod_limit

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

ポッドの制限に対する、ポッドで使用されているメモリの割合。ポッドのいずれかのコンテナに、定義されたメモリ制限がない場合、このメトリクスは表示されません。

計算式: pod_memory_working_set / pod_memory_limit

pod_network_rx_bytes

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

ポッドによって、ネットワーク経由で受信されているバイト数。

計算式: sum(pod_interface_network_rx_bytes)

注記

pod_interface_network_rx_bytes はメトリクスとして直接報告されませんが、パフォーマンスログイベント内のフィールドです。詳細については、「Amazon EKS と Kubernetes のパフォーマンスログイベントの関連フィールド」を参照してください。

pod_network_tx_bytes

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

ポッドによって、ネットワーク経由で送信されているバイト数。

計算式: sum(pod_interface_network_tx_bytes)

注記

pod_interface_network_tx_bytes はメトリクスとして直接報告されませんが、パフォーマンスログイベント内のフィールドです。詳細については、「Amazon EKS と Kubernetes のパフォーマンスログイベントの関連フィールド」を参照してください。

pod_cpu_request

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

ポッドの CPU リクエスト。

計算式: sum(container_cpu_request)

注記

pod_cpu_request はメトリクスとして直接報告されませんが、パフォーマンスログイベント内のフィールドです。詳細については、「Amazon EKS と Kubernetes のパフォーマンスログイベントの関連フィールド」を参照してください。

pod_memory_request

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

ポッドのメモリリクエスト。

計算式: sum(container_memory_request)

注記

pod_memory_request はメトリクスとして直接報告されませんが、パフォーマンスログイベント内のフィールドです。詳細については、「Amazon EKS と Kubernetes のパフォーマンスログイベントの関連フィールド」を参照してください。

pod_cpu_limit

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

ポッド内のコンテナに定義されている CPU 制限。ポッド内のいずれかのコンテナに定義された CPU 制限がない場合、このメトリクスは表示されません。

計算式: sum(container_cpu_limit)

注記

pod_cpu_limit はメトリクスとして直接報告されませんが、パフォーマンスログイベント内のフィールドです。詳細については、「Amazon EKS と Kubernetes のパフォーマンスログイベントの関連フィールド」を参照してください。

pod_memory_limit

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

ポッド内のコンテナに定義されているメモリ上限。ポッドのいずれかのコンテナに、定義されたメモリ制限がない場合、このメトリクスは表示されません。

計算式: sum(container_memory_limit)

注記

pod_cpu_limit はメトリクスとして直接報告されませんが、パフォーマンスログイベント内のフィールドです。詳細については、「Amazon EKS と Kubernetes のパフォーマンスログイベントの関連フィールド」を参照してください。

pod_status_failed

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

ポッド内のすべてのコンテナが終了したことを示します。また、少なくとも 1 つのコンテナがゼロ以外のステータスで終了したか、システムによって終了されたことを示します。

pod_status_ready

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

ポッド内のすべてのコンテナの準備が整い、条件 ContainerReady に達したことを示します。

pod_status_running

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

ポッド内のすべてのコンテナが実行中であることを示します。

pod_status_scheduled

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

ポッドがノードにスケジュールされていることを示します。

pod_status_unknown

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

ポッドのステータスを取得できないことを示します。

pod_status_pending

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

ポッドはクラスターに受け入れられたが、1 つ以上のコンテナの準備がまだ整っていないことを示します。

pod_status_succeeded

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

ポッド内のすべてのコンテナが正常に終了し、再起動されていないことを示します。

pod_number_of_containers

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

ポッドの仕様で定義されているコンテナの数をレポートします。

pod_number_of_running_containers

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

現在、Running 状態にあるポッド内のコンテナの数をレポートします。

pod_container_status_terminated

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Terminated 状態にあるポッド内のコンテナの数をレポートします。

pod_container_status_running

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Running 状態にあるポッド内のコンテナの数をレポートします。

pod_container_status_waiting

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Waiting 状態にあるポッド内のコンテナの数をレポートします。

pod_container_status_waiting_reason_crash_loop_back_off

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

CrashLoopBackOff エラーのために保留中のポッド内のコンテナの数をレポートします。この場合、コンテナは繰り返し起動できません。

pod_container_status_waiting_reason_create_container_config_error

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

理由 CreateContainerConfigError で保留中のポッド内のコンテナの数をレポートします。これは、コンテナ設定の作成中にエラーが発生したことが原因です。

pod_container_status_waiting_reason_create_container_error

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

コンテナの作成中にエラーが発生したため、理由 CreateContainerError で保留中のポッド内のコンテナの数をレポートします。

pod_container_status_waiting_reason_image_pull_error

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

ErrImagePullImagePullBackOff、または InvalidImageName のために保留中のポッド内のコンテナの数をレポートします。これらの状況は、コンテナイメージのプル中にエラーが発生したことが原因です。

pod_container_status_waiting_reason_oom_killed

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Terminated 状態にあるポッド内のコンテナの数をレポートします。

これは、メモリ不足 (OOM が強制終了) が原因です。

pod_container_status_waiting_reason_start_error

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

コンテナの起動中にエラーが発生したため、StartError であることが理由で保留中のポッド内のコンテナの数をレポートします。

pod_container_status_terminated_reason_oom_killed

ContainerName, FullPodName, PodName, Namespace, ClusterName

ContainerName, PodName, Namespace, ClusterName

ClusterName

メモリ制限を超えたためにポッドが終了したことを示します。このメトリクスは、この問題が発生した場合にのみ表示されます。

pod_interface_network_rx_dropped

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

ポッド用にネットワークインターフェイスが受信されたが、その後削除されたパケットの数。

pod_interface_network_tx_dropped

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

ポッド用に送信される予定だったが、削除されたパケットの数。

pod_memory_working_set

ClusterName

ClusterName, Namespace, PodName

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ポッドで現在使用されているバイト単位のメモリ。

pod_cpu_usage_total

ClusterName

ClusterName, Namespace, PodName

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ポッドで使用されている CPU ユニットの数。

container_cpu_utilization

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

コンテナで使用されている CPU ユニットの割合。

計算式: container_cpu_usage_total / node_cpu_limit

注記

container_cpu_utilization はメトリクスとして直接報告されませんが、パフォーマンスログイベント内のフィールドです。詳細については、「Amazon EKS と Kubernetes のパフォーマンスログイベントの関連フィールド」を参照してください。

container_cpu_utilization_over_container_limit

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

コンテナの制限に対する、コンテナで使用されている CPU ユニットの割合。コンテナに定義された CPU 制限がない場合、このメトリクスは表示されません。

計算式: container_cpu_usage_total / container_cpu_limit

注記

container_cpu_utilization_over_container_limit はメトリクスとして直接報告されませんが、パフォーマンスログイベント内のフィールドです。詳細については、「Amazon EKS と Kubernetes のパフォーマンスログイベントの関連フィールド」を参照してください。

container_memory_utilization

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

コンテナで使用されているメモリユニットの割合。

計算式: container_memory_working_set / node_memory_limit

注記

container_memory_utilization はメトリクスとして直接報告されませんが、パフォーマンスログイベント内のフィールドです。詳細については、「Amazon EKS と Kubernetes のパフォーマンスログイベントの関連フィールド」を参照してください。

container_memory_utilization_over_container_limit

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

コンテナの制限に対する、コンテナで使用されているメモリユニットの割合。コンテナに定義されたメモリ制限がない場合、このメトリクスは表示されません。

計算式: container_memory_working_set / container_memory_limit

注記

container_memory_utilization_over_container_limit はメトリクスとして直接報告されませんが、パフォーマンスログイベント内のフィールドです。詳細については、「Amazon EKS と Kubernetes のパフォーマンスログイベントの関連フィールド」を参照してください。

container_memory_failures_total

Windows ではご利用いただけません。

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

コンテナがメモリの割り当てに失敗した回数。

pod_number_of_container_restarts

PodName、NamespaceClusterName

ポッドでのコンテナ再起動の合計数。

service_number_of_running_pods

Service、NamespaceClusterName

ClusterName

クラスターでサービス (1 つまたは複数) を実行しているポッドの数。

replicas_desired

ClusterName

PodName, Namespace, ClusterName

ワークロードの仕様で定義されているワークロードに必要なポッドの数。

replicas_ready

ClusterName

PodName, Namespace, ClusterName

準備完了の状態に達したワークロードにおけるポッドの数。

status_replicas_available

ClusterName

PodName, Namespace, ClusterName

1 つのワークロードで使用可能なポッドの数。ポッドは、ワークロードの仕様で定義されている minReadySeconds の準備が完了した時点で利用可能になります。

status_replicas_unavailable

ClusterName

PodName, Namespace, ClusterName

ワークロードで利用できないポッドの数。ポッドは、ワークロードの仕様で定義されている minReadySeconds の準備が完了した時点で利用可能になります。この基準を満たしていない場合、ポッドは使用できません。

apiserver_storage_objects

ClusterName

ClusterName, resource

最後の確認時に etcd に保存されたオブジェクトの数。

apiserver_storage_db_total_size_in_bytes

ClusterName

ClusterName, endpoint

物理的に割り当てられたストレージデータベースファイルの合計サイズ (バイト単位)。このメトリクスは実験段階で、Kubernetes の今後のリリースで変更される可能性があります。

単位: バイト

有意義な統計: 合計、平均、最小、最大

apiserver_request_total

ClusterName

ClusterName, code, verb

Kubernetes API サーバーに転送された API リクエストの総数。

apiserver_request_duration_seconds

ClusterName

ClusterName, verb

Kubernetes API サーバーへの API リクエストの応答レイテンシー。

apiserver_admission_controller_admission_duration_seconds

ClusterName

ClusterName, operation

アドミッションコントローラーのレイテンシー (秒単位)。アドミッションコントローラーは Kubernetes API サーバーへのリクエストをインターセプトするコードです。

rest_client_request_duration_seconds

ClusterName

ClusterName, operation

Kubernetes API サーバーを呼び出すクライアントに起こる応答レイテンシー。このメトリクスは実験段階で、Kubernetes の今後のリリースで変更される可能性があります。

rest_client_requests_total

ClusterName

ClusterName, code, method

クライアントにより作成された Kubernetes API サーバーへの API リクエストの総数。このメトリクスは実験段階で、Kubernetes の今後のリリースで変更される可能性があります。

etcd_request_duration_seconds

ClusterName

ClusterName, operation

Etcd への API 呼び出しの応答レイテンシー。このメトリクスは実験段階で、Kubernetes の今後のリリースで変更される可能性があります。

apiserver_storage_size_bytes

ClusterName

ClusterName, endpoint

物理的に割り当てられたストレージデータベースファイルのサイズ (バイト単位)。このメトリクスは実験段階で、Kubernetes の今後のリリースで変更される可能性があります。

apiserver_longrunning_requests

ClusterName

ClusterName, resource

Kubernetes API サーバーへの長時間稼働リクエストの数。

apiserver_current_inflight_requests

ClusterName

ClusterName, request_kind

Kubernetes API サーバーにより処理されているリクエストの数。

apiserver_admission_webhook_admission_duration_seconds

ClusterName

ClusterName, name

アドミッションウェブフックのレイテンシー (秒単位)。アドミッションウェブフックはアドミッションリクエストを受信し、何らかの処理を行う HTTP コールバックです。

apiserver_admission_step_admission_duration_seconds

ClusterName

ClusterName, operation

アドミッションのサブステップのレイテンシー (秒単位)。

apiserver_requested_deprecated_apis

ClusterName

ClusterName, group

Kubernetes API サーバー上での非推奨の API へのリクエストの数。

apiserver_request_total_5xx

ClusterName

ClusterName, code, verb

Kubernetes API サーバーへのリクエストのうち、5XX HTTP レスポンスコードで応答されたリクエストの数。

apiserver_storage_list_duration_seconds

ClusterName

ClusterName, resource

Etc からのオブジェクトを一覧表示する応答レイテンシー。このメトリクスは実験段階で、Kubernetes の今後のリリースで変更される可能性があります。

apiserver_flowcontrol_request_concurrency_limit

ClusterName

ClusterName, priority_level

API Priority and Fairness サブシステムで現在実行中のリクエストによって使用されているスレッドの数。

apiserver_flowcontrol_rejected_requests_total

ClusterName

ClusterName, reason

API Priority and Fairness のサブシステムによって拒否されたリクエストの数。このメトリクスは実験段階で、Kubernetes の今後のリリースで変更される可能性があります。

apiserver_current_inqueue_requests

ClusterName

ClusterName, request_kind

Kubernetes API サーバーによりキューに保存されたリクエストの数。このメトリクスは実験段階で、Kubernetes の今後のリリースで変更される可能性があります。

NVIDIA GPU メトリクス

CloudWatch エージェントのバージョン 1.300034.0 以降で Amazon EKS 向けにオブザーバビリティが強化された Container Insights は、デフォルトで EKS ワークロードから NVIDIA GPU メトリクスを収集します。CloudWatch エージェントは、CloudWatch Observability EKS アドオンのバージョン v1.3.0-eksbuild.1 以降を使用してインストールする必要があります。詳細については、「Amazon CloudWatch Observability EKS アドオンまたは Helm チャートを使用して CloudWatch エージェントをインストールする」を参照してください。収集されるこれらの NVIDIA GPU メトリクスは、このセクションにある表に一覧表示されています。

Container Insights が NVIDIA GPU メトリクスを収集するには、次の前提条件を満たす必要があります。

  • Amazon EKS 向けにオブザーバビリティが強化された Container Insights を使用するには、Amazon CloudWatch Observability EKS アドオンバージョン v1.3.0-eksbuild.1 以降を使用する必要があります。

  • クラスターに Kubernetes 用 NVIDIA デバイスプラグインがインストールされている必要があります。

  • クラスターのノードに NVIDIA コンテナツールキットがインストールされている必要があります。例えば、Amazon EKS-Optimized Accelerated AMI は、必要なコンポーネントで作成されています。

最初の CloudWatch エージェント設定ファイルの accelerated_compute_metrics オプションを false に設定することで、NVIDIA GPU メトリクスの収集をオプトアウトできます。詳細とオプトアウトの設定の例については、「(オプション) その他の設定」を参照してください。

メトリクス名 ディメンション 説明

container_gpu_memory_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

コンテナに割り当てられた GPU のフレームバッファの合計サイズ (バイト)。

container_gpu_memory_used

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

コンテナに割り当てられた GPU で使用されているフレームバッファのバイト数。

container_gpu_memory_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

コンテナに割り当てられた GPU のうち、使用されているフレームバッファの割合。

container_gpu_power_draw

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

コンテナに割り当てられた GPU の電力使用量 (ワット)。

container_gpu_temperature

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

コンテナに割り当てられた GPU の温度 (摂氏)。

container_gpu_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

コンテナに割り当てられた GPU の使用率。

node_gpu_memory_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

ノードに割り当てられた GPU のフレームバッファの合計サイズ (バイト)。

node_gpu_memory_used

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

ノードに割り当てられた GPU で使用されているフレームバッファのバイト数。

node_gpu_memory_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

ノードに割り当てられた GPU で使用されているフレームバッファの割合。

node_gpu_power_draw

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

ノードに割り当てられた GPU の電力使用量 (ワット)。

node_gpu_temperature

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

ノードに割り当てられた GPU の温度 (摂氏)。

node_gpu_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

ノードに割り当てられた GPU の使用率。

pod_gpu_memory_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

ポッドに割り当てられた GPU のフレームバッファの合計サイズ (バイト)。

pod_gpu_memory_used

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

ポッドに割り当てられた GPU で使用されているフレームバッファのバイト数。

pod_gpu_memory_utilization

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

ポッドに割り当てられた GPU で使用されているフレームバッファの割合。

pod_gpu_power_draw

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

ポッドに割り当てられた GPU の電力使用量 (ワット)。

pod_gpu_temperature

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

ポッドに割り当てられた GPU の温度 (摂氏)。

pod_gpu_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

ポッドに割り当てられた GPU の使用率。

AWS Trainium と AWS Inferentia の AWS Neuron メトリクス

CloudWatch エージェントのバージョン 1.300036.0 以降、Amazon EKS 向けにオブザーバビリティが強化された Container Insights は、デフォルトで AWS Trainium および AWS Inferentia アクセラレーターから高速コンピューティングメトリクスを収集します。CloudWatch エージェントは、CloudWatch Observability EKS アドオンのバージョン v1.5.0-eksbuild.1 以降を使用してインストールする必要があります。アドオンの詳細については、「Amazon CloudWatch Observability EKS アドオンまたは Helm チャートを使用して CloudWatch エージェントをインストールする」を参照してください。AWS Trainium の詳細については、「AWS Trainium」を参照してください。AWS Inferentia の詳細については、「AWS Inferentia」を参照してください。

Container Insights が AWS Neuron メトリクスを収集するには、次の前提条件を満たす必要があります。

  • Amazon EKS 向けにオブザーバビリティが強化された Container Insights を使用するには、Amazon CloudWatch Observability EKS アドオンバージョン v1.5.0-eksbuild.1 以降を使用する必要があります。

  • Neuron ドライバーはクラスターのノードにインストールする必要があります。

  • Neuron デバイスプラグインはクラスターにインストールする必要があります。例えば、Amazon EKS-Optimized Accelerated AMI は、必要なコンポーネントで作成されています。

収集されるメトリクスは、このセクションにある表に一覧表示されています。AWS Trainium、AWS Inferentia、および AWS Inferentia2 のメトリクスが収集されます。

CloudWatch エージェントは Neuron Monitor からこれらのメトリクスを収集し、必要な Kubernetes リソースの関連付けを行って、ポッドレベルとコンテナレベルでメトリクスを配信します。

メトリクス名 ディメンション 説明

container_neuroncore_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

コンテナに割り当てられた NeuronCore のキャプチャ期間中の NeuronCore 使用率。

単位: パーセント

container_neuroncore_memory_usage_constants

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

コンテナに割り当てられた NeuronCore によってトレーニング中に定数 (または推論中の重み) に使用されるデバイスメモリの量。

単位: バイト

container_neuroncore_memory_usage_model_code

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

コンテナに割り当てられた NeuronCore によってモデルの実行コードに使用されるデバイスメモリの量。

単位: バイト

container_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

コンテナに割り当てられた NeuronCore によってモデルの共有スクラッチパッドに使用されるデバイスメモリの量。このメモリ領域はモデル用に予約されています。

単位: バイト

container_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

コンテナに割り当てられた NeuronCore によって Neuron ランタイムに使用されるデバイスメモリの量。

単位: バイト

container_neuroncore_memory_usage_tensors

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

コンテナに割り当てられた NeuronCore によってテンソルに使用されるデバイスメモリの量。

単位: バイト

container_neuroncore_memory_usage_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

コンテナに割り当てられた NeuronCore によって使用されるメモリの合計量。

単位: バイト

container_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice

ノード上の Neuron デバイスのオンチップ SRAM とデバイスメモリの修正済みおよび未修正 ECC イベントの数。

単位: 数

pod_neuroncore_utilization

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

ポッドに割り当てられた NeuronCore のキャプチャ期間中の NeuronCore 使用率。

単位: パーセント

pod_neuroncore_memory_usage_constants

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

ポッドに割り当てられた NeuronCore によってトレーニング中に定数 (または推論中の重み) に使用されるデバイスメモリの量。

単位: バイト

pod_neuroncore_memory_usage_model_code

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

ポッドに割り当てられた NeuronCore によってモデルの実行コードに使用されるデバイスメモリの量。

単位: バイト

pod_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

ポッドに割り当てられた NeuronCore によってモデルの共有スクラッチパッドに使用されるデバイスメモリの量。このメモリ領域はモデル用に予約されています。

単位: バイト

pod_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

ポッドに割り当てられた NeuronCore によって Neuron ランタイムに使用されるデバイスメモリの量。

単位: バイト

pod_neuroncore_memory_usage_tensors

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

ポッドに割り当てられた NeuronCore によってテンソルに使用されるデバイスメモリの量。

単位: バイト

pod_neuroncore_memory_usage_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

ポッドに割り当てられた NeuronCore によって使用されるメモリの合計量。

単位: バイト

pod_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice

ポッドに割り当てられた Neuron デバイスのオンチップ SRAM とデバイスメモリの修正済みおよび未修正 ECC イベントの数。

単位: バイト

node_neuroncore_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

ノードに割り当てられた NeuronCore のキャプチャ期間中の NeuronCore 使用率。

単位: パーセント

node_neuroncore_memory_usage_constants

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

ノードに割り当てられた NeuronCore によってトレーニング中に定数 (または推論中の重み) に使用されるデバイスメモリの量。

単位: バイト

node_neuroncore_memory_usage_model_code

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

ノードに割り当てられた NeuronCore によってモデルの実行コードに使用されるデバイスメモリの量。

単位: バイト

node_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

ノードに割り当てられた NeuronCore によってモデルの共有スクラッチパッドに使用されるデバイスメモリの量。これはモデル用に予約されているメモリ領域です。

単位: バイト

node_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

ノードに割り当てられた NeuronCore によって Neuron ランタイムに使用されるデバイスメモリの量。

単位: バイト

node_neuroncore_memory_usage_tensors

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

ノードに割り当てられた NeuronCore によってテンソルに使用されるデバイスメモリの量。

単位: バイト

node_neuroncore_memory_usage_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

ノードに割り当てられた NeuronCore によって使用されるメモリの合計量。

単位: バイト

node_neuron_execution_errors_total

ClusterName

ClusterName, InstanceId, NodeName

ノード上の実行エラーの合計数。これは、CloudWatch エージェントで genericnumericaltransientmodelruntimehardware の各タイプのエラーを集計することによって計算されます。

単位: 数

node_neurondevice_runtime_memory_used_bytes

ClusterName

ClusterName, InstanceId, NodeName

ノード上の Neuron デバイスの合計メモリ使用量 (バイト)。

単位: バイト

node_neuron_execution_latency

ClusterName

ClusterName, InstanceId, NodeName

Neuron ランタイムによって測定されたノードでの実行のレイテンシー (秒)。

単位: 秒

node_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, NodeName, NeuronDevice

ノード上の Neuron デバイスのオンチップ SRAM とデバイスメモリの修正済みおよび未修正 ECC イベントの数。

単位: 数

AWS Elastic Fabric Adapter (EFA) メトリクス

CloudWatch エージェントのバージョン 1.300037.0 以降、Amazon EKS 向けにオブザーバビリティが強化された Container Insights は Linux インスタンス上の Amazon EKS クラスターから AWS Elastic Fabric Adapter (EFA) メトリクスを収集します。CloudWatch エージェントは、CloudWatch Observability EKS アドオンのバージョン v1.5.2-eksbuild.1 以降を使用してインストールする必要があります。アドオンの詳細については、「Amazon CloudWatch Observability EKS アドオンまたは Helm チャートを使用して CloudWatch エージェントをインストールする」を参照してください。AWS Elastic Fabric Adapter の詳細については、「Elastic Fabric Adapter」を参照してください。

Container Insights が AWS Elastic Fabric Adapter メトリクスを収集するには、次の前提条件を満たす必要があります。

  • Amazon EKS 向けにオブザーバビリティが強化された Container Insights を使用するには、Amazon CloudWatch Observability EKS アドオンバージョン v1.5.2-eksbuild.1 以降を使用する必要があります。

  • EFA デバイスプラグインはクラスターにインストールする必要があります。詳細については、GitHub の aws-efa-k8s-device-plugin を参照してください。

収集されるメトリクスのリストを次の表に示します。

メトリクス名 ディメンション 説明

container_efa_rx_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

コンテナに割り当てられた EFA デバイスによって受信された 1 秒あたりのバイト数。

単位: バイト/秒

container_efa_tx_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

コンテナに割り当てられた EFA デバイスによって送信された 1 秒あたりのバイト数。

単位: バイト/秒

container_efa_rx_dropped

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

コンテナに割り当てられた EFA デバイスによって受信され、ドロップされたパケットの数。

単位: カウント/秒

container_efa_rdma_read_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

コンテナに割り当てられた EFA デバイスによって、リモートダイレクトメモリアクセスの読み取りオペレーションを使用して受信された 1 秒あたりのバイト数。

単位: バイト/秒

container_efa_rdma_write_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

コンテナに割り当てられた EFA デバイスによって、リモートダイレクトメモリアクセスの読み取りオペレーションを使用して送信された 1 秒あたりのバイト数。

単位: バイト/秒

container_efa_rdma_write_recv_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

コンテナに割り当てられた EFA デバイスによって、リモートダイレクトメモリアクセスの書き込みオペレーションを使用して受信された 1 秒あたりのバイト数。

単位: バイト/秒

pod_efa_rx_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

ポッドに割り当てられた EFA デバイスによって受信された 1 秒あたりのバイト数。

単位: バイト/秒

pod_efa_tx_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

ポッドに割り当てられた EFA デバイスによって送信された 1 秒あたりのバイト数。

単位: バイト/秒

pod_efa_rx_dropped

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

ポッドに割り当てられた EFA デバイスによって受信され、ドロップされたパケットの数。

単位: カウント/秒

pod_efa_rdma_read_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

ポッドに割り当てられた EFA デバイスによって、リモートダイレクトメモリアクセスの読み取りオペレーションを使用して受信された 1 秒あたりのバイト数。

単位: バイト/秒

pod_efa_rdma_write_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

ポッドに割り当てられた EFA デバイスによって、リモートダイレクトメモリアクセスの読み取りオペレーションを使用して送信された 1 秒あたりのバイト数。

単位: バイト/秒

pod_efa_rdma_write_recv_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

ポッドに割り当てられた EFA デバイスによって、リモートダイレクトメモリアクセスの書き込みオペレーションを使用して受信された 1 秒あたりのバイト数。

単位: バイト/秒

node_efa_rx_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

ノードに割り当てられた EFA デバイスによって受信された 1 秒あたりのバイト数。

単位: バイト/秒

node_efa_tx_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

ノードに割り当てられた EFA デバイスによって送信された 1 秒あたりのバイト数。

単位: バイト/秒

node_efa_rx_dropped

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

ノードに割り当てられた EFA デバイスによって受信され、ドロップされたパケットの数。

単位: カウント/秒

node_efa_rdma_read_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

ノードに割り当てられた EFA デバイスによって、リモートダイレクトメモリアクセスの読み取りオペレーションを使用して受信された 1 秒あたりのバイト数。

単位: バイト/秒

node_efa_rdma_write_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

ポッドに割り当てられた EFA デバイスによって、リモートダイレクトメモリアクセスの読み取りオペレーションを使用して送信された 1 秒あたりのバイト数。

単位: バイト/秒

node_efa_rdma_write_recv_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

ノードに割り当てられた EFA デバイスによって、リモートダイレクトメモリアクセスの書き込みオペレーションを使用して受信された 1 秒あたりのバイト数。

単位: バイト/秒

Amazon SageMaker AI HyperPod メトリクス

CloudWatch Observability EKS アドオンのバージョン v2.0.1-eksbuild.1 以降、Amazon EKS 用にオブザーバビリティが強化された Container Insights は、Amazon EKS クラスターから Amazon SageMaker AI HyperPod メトリクスを自動的に収集します。アドオンの詳細については、「Amazon CloudWatch Observability EKS アドオンまたは Helm チャートを使用して CloudWatch エージェントをインストールする」を参照してください。Amazon SageMaker AI HyperPod の詳細については、「Amazon SageMaker AI HyperPod」を参照してください。

収集されるメトリクスのリストを次の表に示します。

メトリクス名 ディメンション 説明

hyperpod_node_health_status_unschedulable

ClusterName

ClusterName, InstanceId, NodeName

ノードが Amazon SageMaker AI HyperPod によって Unschedulable としてラベル付けされているかどうかを示します。これは、ノードがディープヘルスチェックを実行しており、実行中のワークロードでは使用できないことを意味します。

単位: 数

hyperpod_node_health_status_schedulable

ClusterName

ClusterName, InstanceId, NodeName

ノードが Amazon SageMaker AI HyperPod によって Schedulable としてラベル付けされているかどうかを示します。これは、ノードが基本的なヘルスチェックまたはディープヘルスチェックに合格し、実行中のワークロードで使用できることを意味します。

単位: 数

hyperpod_node_health_status_unschedulable_pending_replacement

ClusterName

ClusterName, InstanceId, NodeName

ノードが HyperPod によって UnschedulablePendingReplacement としてラベル付けされているかどうかを示します。これは、ノードがディープヘルスチェックまたはヘルスモニタリングエージェントチェックで不合格となり、置き換えが必要であることを意味します。

自動ノード復旧が有効になっている場合、ノードは自動的に Amazon SageMaker AI HyperPod に置き換えられます。

単位: 数

hyperpod_node_health_status_unschedulable_pending_reboot

ClusterName

ClusterName, InstanceId, NodeName

ノードが Amazon SageMaker AI HyperPod によって UnschedulablePendingReboot としてラベル付けされているかどうかを示します。これは、ノードがディープヘルスチェックを実行しており、再起動が必要であることを意味します。

自動ノード復旧が有効になっている場合、ノードは Amazon SageMaker AI HyperPod によって自動的に再起動されます。

単位: 数

Amazon EBS NVMe ドライバーメトリクス

CloudWatch エージェントのバージョン 1.300056.0 以降、Amazon EKS 用にオブザーバビリティが強化された Container Insights は、Linux インスタンス上の Amazon EKS クラスターから Amazon EBS NVMe ドライバーメトリクスを自動的に収集します。CloudWatch エージェントは、CloudWatch Observability Amazon EKS アドオンのバージョン 4.1.0 以降を使用してインストールする必要があります。アドオンの詳細については、「Amazon CloudWatch Observability EKS アドオンまたは Helm チャートを使用して CloudWatch エージェントをインストールする」を参照してください。Amazon EBS の詳細については、「Amazon EBS の詳細なパフォーマンス統計」を参照してください。

Container Insights が Amazon EBS NVMe ドライバーメトリクスを収集するには、次の前提条件を満たす必要があります。

  • Amazon EKS 用にオブザーバビリティが強化された Container Insights を使用するには、CloudWatch Observability Amazon EKS アドオンバージョン 4.1.0 以降を使用する必要があります。

  • EBS CSI ドライバー 1.42.0 アドオンまたは Helm チャートは、メトリクスが有効になっているクラスターにインストールする必要があります。

    • Amazon EBS CSI ドライバーアドオンを使用している場合にメトリクスを有効にするには、アドオンを作成または更新するときに --configuration-values '{ "node": { "enableMetrics": true } }' オプションを使用します。

    • Helm チャートを使用している場合にメトリクスを有効にするには、アドオンを作成または更新するときに --set node.enableMetrics=true オプションを使用します。

収集されるメトリクスのリストを次の表に示します。

メトリクス名 ディメンション 説明

node_diskio_ebs_total_read_ops

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

完了した読み取りオペレーションの合計回数。

node_diskio_ebs_total_write_ops

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

完了した書き込みオペレーションの合計回数。

node_diskio_ebs_total_read_bytes

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

転送された読み取りバイトの合計数。

node_diskio_ebs_total_write_bytes

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

転送された書き込みバイトの合計数。

node_diskio_ebs_total_read_time

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

完了したすべての読み取りオペレーションで費やされた合計時間 (マイクロ秒単位)。

node_diskio_ebs_total_write_time

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

完了したすべての書き込みオペレーションで費やされた合計時間 (マイクロ秒単位)。

node_diskio_ebs_volume_performance_exceeded_iops

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

IOPS 需要がボリュームのプロビジョンド IOPS パフォーマンスを超えた合計時間 (マイクロ秒単位)。

node_diskio_ebs_volume_performance_exceeded_tp

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

スループット需要がボリュームのプロビジョンドスループットパフォーマンスを超えた合計時間 (マイクロ秒単位)。

node_diskio_ebs_ec2_instance_performance_exceeded_iops

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

EBS ボリュームがアタッチされた Amazon EC2 インスタンスの最大 IOPS パフォーマンスを超えた合計時間 (マイクロ秒単位)。

node_diskio_ebs_ec2_instance_performance_exceeded_tp

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

EBS ボリュームがアタッチされた Amazon EC2 インスタンスの最大スループットパフォーマンスを超えた合計時間 (マイクロ秒単位)。

node_diskio_ebs_volume_queue_length

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

完了を待機している読み取りおよび書き込みオペレーションの数。