View a markdown version of this page

PCS の Slurm AWS メトリクス - AWS PCS

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

PCS の Slurm AWS メトリクス

AWS PCS は Slurm のメトリクス機能をサポートしています。この機能は、Prometheus やその他のモニタリングシステムと互換性のある HTTP エンドポイントを介してリアルタイムのクラスターデータを公開します。パフォーマンスへの影響やセキュリティ上の考慮事項などの詳細については、Slurm ドキュメントの「 メトリクスガイド」を参照してください。

前提条件

Slurm メトリクスを有効にする前に、以下を確認してください。

  • クラスターバージョン: Slurm バージョン 25.11 以降。

  • セキュリティグループ: 目的のソースからのポート 6817 での HTTP トラフィックを許可するルール。

メトリクスエンドポイントを有効にする

次のクラスターレベルのカスタム Slurm 設定を設定します。

  • MetricsType – など、サポートされているメトリクスプラグインを指定する必要がありますmetrics/openmetrics

  • CommunicationParameters – を含める必要がありますenable_http

    重要

    を有効にすると、認証されていない HTTP エンドポイントがenable_http公開されます。ポート 6817 へのネットワークアクセスを持つユーザーは、クラスター、ジョブ、ノードのメトリクスを読み取ることができます。セキュリティグループルールを使用して、信頼されたソースへのアクセスのみを制限します。

  • PrivateData – 設定しないでください

カスタム Slurm 設定の詳細については、「」を参照してくださいPCS でのカスタム Slurm AWS 設定の設定

メトリクスエンドポイントを使用する

コントローラーへのネットワークアクセスを持つホストからメトリクスエンドポイントをクエリします。

curl http://controller-ip:6817/metrics

使用可能なメトリクスとスクレイピング設定の詳細については、Slurm ドキュメントの「メトリクスガイド」を参照してください。