View a markdown version of this page

AWS PCS 中的 Slurm 指標 - AWS PCS

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

AWS PCS 中的 Slurm 指標

AWS PCS 支援 Slurm 的指標功能,可透過與 Prometheus 和其他監控系統相容的 HTTP 端點公開即時叢集資料。如需詳細資訊,包括效能影響和安全考量,請參閱 Slurm 文件中的指標指南

先決條件

啟用 Slurm 指標之前,請確定您有:

  • 叢集版本:Slurm 25.11 版或更新版本。

  • 安全群組:允許連接埠 6817 上來自所需來源的 HTTP 流量的規則。

啟用指標端點

設定下列叢集層級自訂 Slurm 設定:

  • MetricsType – 必須指定支援的指標外掛程式,例如 metrics/openmetrics

  • CommunicationParameters – 必須包含 enable_http

    重要

    啟用 會enable_http公開未經驗證的 HTTP 端點。具有連接埠 6817 網路存取權的任何人都可以讀取叢集、任務和節點指標。使用安全群組規則來限制只能存取信任的來源。

  • PrivateData不得設定。

如需自訂 Slurm 設定的其他資訊,請參閱 在 AWS PCS 中設定自訂 Slurm 設定

使用指標端點

從具有控制器網路存取權的主機查詢指標端點:

curl http://controller-ip:6817/metrics

如需可用指標和抓取組態的其他資訊,請參閱 Slurm 文件中的指標指南