View a markdown version of this page

SageMaker HyperPod 集群指标 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

SageMaker HyperPod 集群指标

亚马逊 SageMaker HyperPod (SageMaker HyperPod) 向您的 Prometheus 亚马逊托管服务工作区发布了 9 个不同类别的各种指标。并非所有指标在默认情况下都是启用的,也并非所有指标都会显示在 Amazon Managed Grafana 工作区中。下表会显示在安装可观测性附加组件时默认启用的指标、包含可额外启用以获取更精细集群信息的指标的类别,以及这些指标在 Amazon Managed Grafana 工作区中的显示位置。

指标类别 是否默认启用? 是否有其他可用的高级指标? 在哪个 Grafana 控制面板可用?
训练指标 支持 训练
推理指标 推理
任务治理指标 无。查询 Amazon Managed Service for Prometheus 工作区以构建自己的控制面板。
扩展指标 无。查询 Amazon Managed Service for Prometheus 工作区以构建自己的控制面板。
集群指标 支持 Cluster
实例指标 支持 Cluster
加速计算指标 支持 任务,集群
网络指标 Cluster
文件系统 文件系统

下表描述了可用于监控您的 SageMaker HyperPod 集群的指标,按类别排列。

受限实例组的指标可用性

当您的集群包含受限实例组时,大多数指标类别都可以在受限节点上使用,但有以下例外情况和注意事项。您还可以根据自己选择的任何指标设置提醒。

指标类别 在 RIG 节点上可用吗? 注意
训练指标 Kubeflow 和 Kubernetes 容器指标已收集。高级训练 KPI 指标(来自训练指标代理)无法从 RIG 节点获得。
推理指标 受限实例组不支持推理工作负载。
任务治理指标 Kueue 指标仅从标准节点(如果有)收集。
扩展指标 仅从标准节点收集 KEDA 指标(如果有)。
集群指标 Kube 状态指标和 API 服务器指标可用。Kube State Metrics 优先安排在标准节点上,但可以在仅限 RIG 的集群中的受限节点上运行。
实例指标 Node Exporter 和 cAdvisor 指标是在包括受限节点在内的所有节点上收集的。
加速计算指标 DCGM 导出器在启用 GPU 的受限节点上运行。启用高级模式后,Neuron Monitor 将在启用 Neuron 的受限节点上运行。
网络指标 启用高级模式后,EFA 导出器将在启用 EFA 的受限节点上运行。
文件系统指标 FSx for Lustre 集群利用率指标支持受限实例组。
注意

使用 Fluent Bit 的容器日志收集未部署在受限节点上。来自受限节点的集群日志可通过 SageMaker HyperPod 平台获取,与可观察性插件无关。您可以在 “集群日志” 仪表板中查看这些日志。

训练指标

使用这些指标来跟踪在 SageMaker HyperPod 集群上执行的训练任务的性能。

指标名称或类型 说明 是否默认启用? 指标来源
Kubeflow 指标 https://github.com/kubeflow/教练 Kubeflow
Kubernetes 容器组(pod)指标 https://github.com/kubernetes/kube-state-metrics Kubernetes
training_uptime_percentage 总窗口时长中训练时长所占的百分比 SageMaker HyperPod 培训操作员
training_manual_recovery_count 已对作业执行的手动重启总次数 SageMaker HyperPod 培训操作员
training_manual_downtime_ms 因手动干预导致作业中断的总时长(以毫秒为单位) SageMaker HyperPod 培训操作员
training_auto_recovery_count 自动恢复总次数 SageMaker HyperPod 培训操作员
training_auto_recovery_downtime 故障恢复期间基础设施的总开销时长(以毫秒为单位) SageMaker HyperPod 培训操作员
training_fault_count 训练期间遇到的故障总数 SageMaker HyperPod 培训操作员
training_fault_type_count 按类型划分的故障分布 SageMaker HyperPod 培训操作员
training_fault_recovery_time_ms 每种类型的故障的恢复时间(以毫秒为单位) SageMaker HyperPod 培训操作员
training_time_ms 实际训练所花费的总时长(以毫秒为单位) SageMaker HyperPod 培训操作员

推理指标

使用这些指标来跟踪集 SageMaker HyperPod 群上推理任务的性能。

指标名称或类型 说明 是否默认启用? 指标来源
model_invocations_total 模型的调用请求总数 SageMaker HyperPod 推理运算符
model_errors_total 模型调用期间的错误总数 SageMaker HyperPod 推理运算符
model_concurrent_requests 活跃的并发模型请求数 SageMaker HyperPod 推理运算符
model_latency_milliseconds 模型调用延迟(以毫秒为单位) SageMaker HyperPod 推理运算符
model_ttfb_milliseconds 模型首字节时间延迟(以毫秒为单位) SageMaker HyperPod 推理运算符
TGI 这些指标可用于监控 TGI 的性能、自动扩缩部署并帮助识别瓶颈。有关指标的详细列表,请参阅 https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README .md。 模型容器
LMI 这些指标可用于监控 LMI 的性能并帮助识别瓶颈。有关指标的详细列表,请参阅 https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README .md。 模型容器

任务治理指标

使用这些指标来监控 SageMaker HyperPod 集群上的任务管理和资源分配。

指标名称或类型 说明 是否默认启用? 指标来源
Kueue https://kueue.sigs.k8s。 io/docs/reference/metrics/。 Kueue

扩展指标

使用这些指标来监控集群上的自动缩放行为和性能。 SageMaker HyperPod

指标名称或类型 说明 是否默认启用? 指标来源
KEDA 操作符指标 https://keda。 sh/docs/2.17/integrations/prometheus/#operator Kubernetes 事件驱动型自动扩缩器(KEDA)
KEDA Webhook 指标 https://keda。 sh/docs/2.17/integrations/prometheus/#admission-webhooks Kubernetes 事件驱动型自动扩缩器(KEDA)
KEDA 指标服务器指标 https://keda。 sh/docs/2.17/integrations/prometheus/#metrics-服务器。 Kubernetes 事件驱动型自动扩缩器(KEDA)

集群指标

使用这些指标可监控集群的整体运行状况和资源分配。

指标名称或类型 说明 是否默认启用? 指标来源
集群运行状况 Kubernetes API 服务器指标。见 https://kubernetes。 io/docs/reference/instrumentation/metrics/。 Kubernetes
Kubestate 参见 https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default-resources 有限 Kubernetes
KubeState 高级 参见 https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional-resources Kubernetes

实例指标

使用这些指标可监控单个实例的性能和运行状况。

指标名称或类型 说明 是否默认启用? 指标来源
节点指标 看见 https://github.com/prometheus/node_exporter? tab = readme-ov-file # enabled-by-default Kubernetes
容器指标 Cadvisor 公开的容器指标。见 https://github.com/google/cadvisor Kubernetes

加速计算指标

使用这些指标可监控集群中单个加速计算设备的性能、运行状况和利用率。

注意

在集群上启用使用 MIG(多实例 GPU)的 GPU 分区时,DCGM 指标会自动提供分区级别的粒度,用于监控单个 MIG 实例。每个 MIG 分区都作为单独的 GPU 设备公开,具有自己的温度、功耗、内存利用率和计算活动指标。这使您可以独立跟踪每个 GPU 分区的资源使用情况和运行状况,从而可以精确监控在部分 GPU 资源上运行的工作负载。有关配置 GPU 分区的更多信息,请参阅在亚马逊中使用 GPU 分区 SageMaker HyperPod

指标名称或类型 说明 是否默认启用? 指标来源
NVIDIA GPU DCGM 指标。见 https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv 有限

NVIDIA Data Center GPU Manager(DCGM)

NVIDIA GPU(高级)

以下 CSV 文件中注释掉的 DCGM 指标:

https://github.com/NVIDIA/dcgm--metrics-included.csv exporter/blob/main/etc/dcp

NVIDIA Data Center GPU Manager(DCGM)

AWS Trainium Neuron 指标。参见 https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron-monitor-user-guide .html#。neuron-monitor-nc-counters AWS 神经元监视器

网络指标

使用这些指标可监控集群中 Elastic Fabric Adapter(EFA)的性能和运行状况。

指标名称或类型 说明 是否默认启用? 指标来源
EFA 参见 https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md. Elastic Fabric Adapter

文件系统指标

指标名称或类型 说明 是否默认启用? 指标来源
文件系统 来自亚马逊 FSx 的 Amazon for Lustre 指标: CloudWatch

使用亚马逊进行监控 CloudWatch

亚马逊 f FSx or Lustre