本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
AWS PCS 中的 Slurm 指標
AWS PCS 支援 Slurm 的指標功能,可透過與 Prometheus 和其他監控系統相容的 HTTP 端點公開即時叢集資料。如需詳細資訊,包括效能影響和安全考量,請參閱 Slurm 文件中的指標指南
先決條件
啟用 Slurm 指標之前,請確定您有:
-
叢集版本:Slurm 25.11 版或更新版本。
-
安全群組:允許連接埠 6817 上來自所需來源的 HTTP 流量的規則。
啟用指標端點
設定下列叢集層級自訂 Slurm 設定:
-
MetricsType– 必須指定支援的指標外掛程式,例如metrics/openmetrics。 -
CommunicationParameters– 必須包含enable_http。重要
啟用 會
enable_http公開未經驗證的 HTTP 端點。具有連接埠 6817 網路存取權的任何人都可以讀取叢集、任務和節點指標。使用安全群組規則來限制只能存取信任的來源。 -
PrivateData– 不得設定。
如需自訂 Slurm 設定的其他資訊,請參閱 在 AWS PCS 中設定自訂 Slurm 設定。
使用指標端點
從具有控制器網路存取權的主機查詢指標端點:
curl http://controller-ip:6817/metrics
如需可用指標和抓取組態的其他資訊,請參閱 Slurm 文件中的指標指南