View a markdown version of this page

PCS 中的 Slurm 指标 AWS - AWS PC

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

PCS 中的 Slurm 指标 AWS

AWS PCS 支持 Slurm 的指标功能,该功能通过与 Prometheus 和其他监控系统兼容的 HTTP 端点公开实时集群数据。有关详细信息,包括性能影响和安全注意事项,请参阅 Slurm 文档中的指标指南

先决条件

在启用 Slurm 指标之前,请确保您具有:

  • 集群版本:Slurm 版本 25.11 或更高版本。

  • 安全组:允许端口 6817 上来自所需来源的 HTTP 流量的规则。

启用指标端点

设置以下集群级别的自定义 Slurm 设置:

  • MetricsType— 必须指定支持的指标插件,例如metrics/openmetrics

  • CommunicationParameters— 必须包括enable_http

    重要

    启用enable_http会暴露未经身份验证的 HTTP 端点。任何拥有端口 6817 网络访问权限的人都可以读取集群、作业和节点指标。使用安全组规则限制仅对可信来源的访问。

  • PrivateData不得设置。

有关自定义 Slurm 设置的更多信息,请参阅。在 PCS 中配置自定义 Slurm 设置 AWS

使用指标端点

从具有控制器网络访问权限的主机上查询指标端点:

curl http://controller-ip:6817/metrics

有关可用指标和抓取配置的更多信息,请参阅 Slur m 文档中的指标指南