SageMaker HyperPod 集群指标 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

SageMaker HyperPod 集群指标

亚马逊 SageMaker HyperPod (SageMaker HyperPod) 向您的 Prometheus 亚马逊托管服务工作区发布了 9 个不同类别的各种指标。并非所有指标都默认启用或显示在您的亚马逊托管 Grafana 工作区中。下表显示了在安装可观测性插件时默认启用哪些指标,哪些类别具有其他指标可以启用以获取更精细的集群信息,以及它们在 Amazon Managed Grafana 工作空间中的显示位置。

指标类别 默认启用? 还有其他高级指标吗? 在哪个 Grafana 仪表板下可用?
训练指标 支持 训练
推理指标 推理
任务治理指标 无。查询您的 Amazon 托管服务 Prometheus 工作空间,创建自己的控制面板。
扩展指标 无。查询您的 Amazon 托管服务 Prometheus 工作空间,创建自己的控制面板。
集群指标 支持 集群
实例指标 支持 集群
加速计算指标 支持 任务,集群
网络指标 集群
文件系统 文件系统

下表描述了可用于监控您的 SageMaker HyperPod 集群的指标,按类别排列。

训练指标

使用这些指标来跟踪在 SageMaker HyperPod 集群上执行的训练任务的性能。

指标名称或类型 描述 默认启用? 指标来源
Kubeflow 指标 https://github.com/kubeflow/教练 Kubeflow
Kubernetes Pod 指标 https://github.com/kubernetes/kube-state-metrics Kubernetes
training_uptime_percentage 训练时间占总窗口大小的百分比 SageMaker HyperPod 培训操作员
training_manual_recovery_count 对作业执行的手动重启总数 SageMaker HyperPod 培训操作员
training_manual_downtime_ms 由于手动干预,作业停机的总时间(以毫秒为单位) SageMaker HyperPod 培训操作员
training_auto_recovery_count 自动恢复的总数 SageMaker HyperPod 培训操作员
training_auto_recovery_downtime 故障恢复期间的基础设施总开销时间(以毫秒为单位) SageMaker HyperPod 培训操作员
training_fault_count 训练期间遇到的故障总数 SageMaker HyperPod 培训操作员
training_fault_type_count 按类型分列的故障分布 SageMaker HyperPod 培训操作员
training_fault_recovery_time_ms 每种故障类型的恢复时间(以毫秒为单位) SageMaker HyperPod 培训操作员
training_time_ms 实际训练所花费的总时间(以毫秒为单位) SageMaker HyperPod 培训操作员

推理指标

使用这些指标来跟踪集 SageMaker HyperPod 群上推理任务的性能。

指标名称或类型 描述 默认启用? 指标来源
model_invocations_total 对模型的调用请求总数 SageMaker HyperPod 推理运算符
model_errors_total 模型调用期间的错误总数 SageMaker HyperPod 推理运算符
model_concurrent_requests 活跃的并发模型请求 SageMaker HyperPod 推理运算符
model_latency_milliseconds 模型调用延迟(以毫秒为单位) SageMaker HyperPod 推理运算符
model_ttfb_milliseconds 建模到第一个字节延迟的时间(以毫秒为单位) SageMaker HyperPod 推理运算符
TGI 这些指标可用于监控 TGI 的性能、自动扩展部署并帮助识别瓶颈。有关指标的详细列表,请参阅 https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README .md。 模型容器
LMI 这些指标可用于监控 LMI 的性能,并帮助识别瓶颈。有关指标的详细列表,请参阅 https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README .md。 模型容器

任务治理指标

使用这些指标来监控 SageMaker HyperPod 集群上的任务管理和资源分配。

指标名称或类型 描述 默认启用? 指标来源
Kueue https://kueue.sigs.k8s。 io/docs/reference/metrics/。 Kueue

扩展指标

使用这些指标来监控集群上的自动缩放行为和性能。 SageMaker HyperPod

指标名称或类型 描述 默认启用? 指标来源
KEDA 操作员指标 https://keda。 sh/docs/2.17/integrations/prometheus/#operator Kubernetes 事件驱动型自动扩缩程序 (KEDA)
KEDA Webhook 指标 https://keda。 sh/docs/2.17/integrations/prometheus/#admission-webhooks Kubernetes 事件驱动型自动扩缩程序 (KEDA)
KEDA 指标服务器指标 https://keda。 sh/docs/2.17/integrations/prometheus/#metrics-服务器。 Kubernetes 事件驱动型自动扩缩程序 (KEDA)

集群指标

使用这些指标来监控集群的整体运行状况和资源分配。

指标名称或类型 描述 默认启用? 指标来源
集群运行状况 Kubernetes API 服务器指标。见 https://kubernetes。 io/docs/reference/instrumentation/metrics/。 Kubernetes
Kubestate 参见 https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default-resources 有限 Kubernetes
KubeState 高级 参见 https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional-resources Kubernetes

实例指标

使用这些指标来监控单个实例的性能和运行状况。

指标名称或类型 描述 默认启用? 指标来源
节点指标 看见 https://github.com/prometheus/node_exporter? tab = readme-ov-file # enabled-by-default Kubernetes
容器指标 Cadvisor 公开的容器指标。见 https://github.com/google/cadvisor Kubernetes

加速计算指标

使用这些指标来监控集群中各个加速计算设备的性能、运行状况和利用率。

指标名称或类型 描述 默认启用? 指标来源
英伟达显卡 DCGM 指标。见 https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv 有限

NVIDIA 数据中心 GPU 管理器 (DCGM)

英伟达 GPU(高级)

在以下 CSV 文件中注释掉的 DCGM 指标:

https://github.com/NVIDIA/dcgm--metrics-included.csv exporter/blob/main/etc/dcp

NVIDIA 数据中心 GPU 管理器 (DCGM)

AWS Trainium 神经元指标。参见 https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron-monitor-user-guide .html#。neuron-monitor-nc-counters AWS 神经元监视器

网络指标

使用这些指标来监控集群中弹性结构适配器 (EFA) 的性能和运行状况。

指标名称或类型 描述 默认启用? 指标来源
EFA 参见 https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md. Elastic Fabric Adapter

文件系统指标

指标名称或类型 描述 默认启用? 指标来源
文件系统 来自亚马逊 FSx 的 Amazon for Lustre 指标: CloudWatch

使用 Amazon 进行监控 CloudWatch

亚马逊 f FSx or Lustre