翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
PCS の Slurm AWS メトリクス
AWS PCS は Slurm のメトリクス機能をサポートしています。この機能は、Prometheus やその他のモニタリングシステムと互換性のある HTTP エンドポイントを介してリアルタイムのクラスターデータを公開します。パフォーマンスへの影響やセキュリティ上の考慮事項などの詳細については、Slurm ドキュメントの「 メトリクスガイド
前提条件
Slurm メトリクスを有効にする前に、以下を確認してください。
-
クラスターバージョン: Slurm バージョン 25.11 以降。
-
セキュリティグループ: 目的のソースからのポート 6817 での HTTP トラフィックを許可するルール。
メトリクスエンドポイントを有効にする
次のクラスターレベルのカスタム Slurm 設定を設定します。
-
MetricsType– など、サポートされているメトリクスプラグインを指定する必要がありますmetrics/openmetrics。 -
CommunicationParameters– を含める必要がありますenable_http。重要
を有効にすると、認証されていない HTTP エンドポイントが
enable_http公開されます。ポート 6817 へのネットワークアクセスを持つユーザーは、クラスター、ジョブ、ノードのメトリクスを読み取ることができます。セキュリティグループルールを使用して、信頼されたソースへのアクセスのみを制限します。 -
PrivateData– 設定しないでください。
カスタム Slurm 設定の詳細については、「」を参照してくださいPCS でのカスタム Slurm AWS 設定の設定。
メトリクスエンドポイントを使用する
コントローラーへのネットワークアクセスを持つホストからメトリクスエンドポイントをクエリします。
curl http://controller-ip:6817/metrics
使用可能なメトリクスとスクレイピング設定の詳細については、Slurm ドキュメントの「メトリクスガイド