本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
SageMaker HyperPod 集群指标
亚马逊 SageMaker HyperPod (SageMaker HyperPod) 向您的 Prometheus 亚马逊托管服务工作区发布了 9 个不同类别的各种指标。并非所有指标都默认启用或显示在您的亚马逊托管 Grafana 工作区中。下表显示了在安装可观测性插件时默认启用哪些指标,哪些类别具有其他指标可以启用以获取更精细的集群信息,以及它们在 Amazon Managed Grafana 工作空间中的显示位置。
指标类别 | 默认启用? | 还有其他高级指标吗? | 在哪个 Grafana 仪表板下可用? |
---|---|---|---|
训练指标 | 支持 | 是 | 训练 |
推理指标 | 是 | 否 | 推理 |
任务治理指标 | 否 | 是 | 无。查询您的 Amazon 托管服务 Prometheus 工作空间,创建自己的控制面板。 |
扩展指标 | 否 | 是 | 无。查询您的 Amazon 托管服务 Prometheus 工作空间,创建自己的控制面板。 |
集群指标 | 支持 | 是 | 集群 |
实例指标 | 支持 | 是 | 集群 |
加速计算指标 | 支持 | 是 | 任务,集群 |
网络指标 | 否 | 是 | 集群 |
文件系统 | 是 | 否 | 文件系统 |
下表描述了可用于监控您的 SageMaker HyperPod 集群的指标,按类别排列。
训练指标
使用这些指标来跟踪在 SageMaker HyperPod 集群上执行的训练任务的性能。
指标名称或类型 | 描述 | 默认启用? | 指标来源 |
---|---|---|---|
Kubeflow 指标 | https://github.com/kubeflow/教练 |
是 | Kubeflow |
Kubernetes Pod 指标 | https://github.com/kubernetes/kube-state-metrics |
是 | Kubernetes |
training_uptime_percentage |
训练时间占总窗口大小的百分比 | 否 | SageMaker HyperPod 培训操作员 |
training_manual_recovery_count |
对作业执行的手动重启总数 | 否 | SageMaker HyperPod 培训操作员 |
training_manual_downtime_ms |
由于手动干预,作业停机的总时间(以毫秒为单位) | 否 | SageMaker HyperPod 培训操作员 |
training_auto_recovery_count |
自动恢复的总数 | 否 | SageMaker HyperPod 培训操作员 |
training_auto_recovery_downtime |
故障恢复期间的基础设施总开销时间(以毫秒为单位) | 否 | SageMaker HyperPod 培训操作员 |
training_fault_count |
训练期间遇到的故障总数 | 否 | SageMaker HyperPod 培训操作员 |
training_fault_type_count |
按类型分列的故障分布 | 否 | SageMaker HyperPod 培训操作员 |
training_fault_recovery_time_ms |
每种故障类型的恢复时间(以毫秒为单位) | 否 | SageMaker HyperPod 培训操作员 |
training_time_ms |
实际训练所花费的总时间(以毫秒为单位) | 否 | SageMaker HyperPod 培训操作员 |
推理指标
使用这些指标来跟踪集 SageMaker HyperPod 群上推理任务的性能。
指标名称或类型 | 描述 | 默认启用? | 指标来源 |
---|---|---|---|
model_invocations_total |
对模型的调用请求总数 | 是 | SageMaker HyperPod 推理运算符 |
model_errors_total |
模型调用期间的错误总数 | 是 | SageMaker HyperPod 推理运算符 |
model_concurrent_requests |
活跃的并发模型请求 | 是 | SageMaker HyperPod 推理运算符 |
model_latency_milliseconds |
模型调用延迟(以毫秒为单位) | 是 | SageMaker HyperPod 推理运算符 |
model_ttfb_milliseconds |
建模到第一个字节延迟的时间(以毫秒为单位) | 是 | SageMaker HyperPod 推理运算符 |
TGI | 这些指标可用于监控 TGI 的性能、自动扩展部署并帮助识别瓶颈。有关指标的详细列表,请参阅 https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README .md。 |
是 | 模型容器 |
LMI | 这些指标可用于监控 LMI 的性能,并帮助识别瓶颈。有关指标的详细列表,请参阅 https://github.com/deepjavalibrary/djl-serving/blob/master/prometheus/README .md。 |
是 | 模型容器 |
任务治理指标
使用这些指标来监控 SageMaker HyperPod 集群上的任务管理和资源分配。
指标名称或类型 | 描述 | 默认启用? | 指标来源 |
---|---|---|---|
Kueue | 见 https://kueue.sigs.k8s。 io/docs/reference/metrics |
否 | Kueue |
扩展指标
使用这些指标来监控集群上的自动缩放行为和性能。 SageMaker HyperPod
指标名称或类型 | 描述 | 默认启用? | 指标来源 |
---|---|---|---|
KEDA 操作员指标 | 见 https://keda。 sh/docs/2.17/integrations/prometheus/#operator |
否 | Kubernetes 事件驱动型自动扩缩程序 (KEDA) |
KEDA Webhook 指标 | 见 https://keda。 sh/docs/2.17/integrations/prometheus/#admission-webhooks |
否 | Kubernetes 事件驱动型自动扩缩程序 (KEDA) |
KEDA 指标服务器指标 | 见 https://keda。 sh/docs/2.17/integrations/prometheus/#metrics-服务器。 |
否 | Kubernetes 事件驱动型自动扩缩程序 (KEDA) |
集群指标
使用这些指标来监控集群的整体运行状况和资源分配。
指标名称或类型 | 描述 | 默认启用? | 指标来源 |
---|---|---|---|
集群运行状况 | Kubernetes API 服务器指标。见 https://kubernetes。 io/docs/reference/instrumentation/metrics |
是 | Kubernetes |
Kubestate | 参见 https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default-resources |
有限 | Kubernetes |
KubeState 高级 | 参见 https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional-resources |
否 | Kubernetes |
实例指标
使用这些指标来监控单个实例的性能和运行状况。
指标名称或类型 | 描述 | 默认启用? | 指标来源 |
---|---|---|---|
节点指标 | 看见 https://github.com/prometheus/node_exporter? tab = readme-ov-file # enabled-by-default |
是 | Kubernetes |
容器指标 | Cadvisor 公开的容器指标。见 https://github.com/google/cadvisor |
是 | Kubernetes |
加速计算指标
使用这些指标来监控集群中各个加速计算设备的性能、运行状况和利用率。
指标名称或类型 | 描述 | 默认启用? | 指标来源 |
---|---|---|---|
英伟达显卡 | DCGM 指标。见 https://github.com/NVIDIA/dcgm-exporter/blob/main/etc/dcp-metrics-included.csv |
有限 |
NVIDIA 数据中心 GPU 管理器 (DCGM) |
英伟达 GPU(高级) |
在以下 CSV 文件中注释掉的 DCGM 指标: https://github.com/NVIDIA/dcgm--metrics-included.csv exporter/blob/main/etc/dcp |
否 |
NVIDIA 数据中心 GPU 管理器 (DCGM) |
AWS Trainium | 神经元指标。参见 https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron-monitor-user-guide .html#。neuron-monitor-nc-counters |
否 | AWS 神经元监视器 |
网络指标
使用这些指标来监控集群中弹性结构适配器 (EFA) 的性能和运行状况。
指标名称或类型 | 描述 | 默认启用? | 指标来源 |
---|---|---|---|
EFA | 参见 https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md. |
否 | Elastic Fabric Adapter |
文件系统指标
指标名称或类型 | 描述 | 默认启用? | 指标来源 |
---|---|---|---|
文件系统 | 来自亚马逊 FSx 的 Amazon for Lustre 指标: CloudWatch | 是 | 亚马逊 f FSx or Lustre |