

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# PCS 中的 Slurm 指标 AWS
<a name="slurm-metrics"></a>

AWS PCS 支持 Slurm 的指标功能，该功能通过与 Prometheus 和其他监控系统兼容的 HTTP 端点公开实时集群数据。有关详细信息，包括性能影响和安全注意事项，请参阅 Slurm 文档中的[指标指南](https://slurm.schedmd.com/metrics.html)。

## 先决条件
<a name="slurm-metrics-prerequisites"></a>

在启用 Slurm 指标之前，请确保您具有：
+ **集群版本**：Slurm 版本 25.11 或更高版本。
+ **安全组**：允许端口 6817 上来自所需来源的 HTTP 流量的规则。

## 启用指标端点
<a name="slurm-metrics-enable"></a>

设置以下集群级别的自定义 Slurm 设置：
+ `MetricsType`— 必须指定支持的指标插件，例如`metrics/openmetrics`。
+ `CommunicationParameters`— 必须包括`enable_http`。
**重要**  
启用`enable_http`会暴露未经身份验证的 HTTP 端点。任何拥有端口 6817 网络访问权限的人都可以读取集群、作业和节点指标。使用安全组规则限制仅对可信来源的访问。
+ `PrivateData`— *不得*设置。

有关自定义 Slurm 设置的更多信息，请参阅。[在 PCS 中配置自定义 Slurm 设置 AWS](slurm-custom-settings.md)

## 使用指标端点
<a name="slurm-metrics-use"></a>

从具有控制器网络访问权限的主机上查询指标端点：

```
curl http://{{controller-ip}}:6817/metrics
```

有关可用指标和抓取配置的更多信息，请参阅 Slur [m 文档中的指标指南](https://slurm.schedmd.com/metrics.html)。