View a markdown version of this page

AWS PCS의 Slurm 지표 - AWS PCS

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWS PCS의 Slurm 지표

AWS PCS는 Prometheus 및 기타 모니터링 시스템과 호환되는 HTTP 엔드포인트를 통해 실시간 클러스터 데이터를 노출하는 Slurm의 지표 기능을 지원합니다. 성능 영향 및 보안 고려 사항을 포함한 자세한 내용은 Slurm 설명서의 지표 가이드를 참조하세요.

사전 조건

Slurm 지표를 활성화하기 전에 다음을 확인해야 합니다.

  • 클러스터 버전: Slurm 버전 25.11 이상.

  • 보안 그룹: 원하는 소스의 포트 6817에서 HTTP 트래픽을 허용하는 규칙입니다.

지표 엔드포인트 활성화

다음 클러스터 수준 사용자 지정 Slurm 설정을 지정합니다.

  • MetricsType -와 같이 지원되는 지표 플러그인을 지정해야 합니다metrics/openmetrics.

  • CommunicationParameters -를 포함해야 합니다enable_http.

    중요

    를 활성화하면 인증되지 않은 HTTP 엔드포인트가 enable_http 표시됩니다. 포트 6817에 대한 네트워크 액세스 권한이 있는 사람은 누구나 클러스터, 작업 및 노드 지표를 읽을 수 있습니다. 보안 그룹 규칙을 사용하여 신뢰할 수 있는 소스에 대한 액세스만 제한합니다.

  • PrivateData - 설정하면 안 됩니다.

사용자 지정 Slurm 설정에 대한 자세한 내용은 섹션을 참조하세요AWS PCS에서 사용자 지정 Slurm 설정 구성.

지표 엔드포인트 사용

컨트롤러에 대한 네트워크 액세스 권한이 있는 호스트에서 지표 엔드포인트를 쿼리합니다.

curl http://controller-ip:6817/metrics

사용 가능한 지표 및 스크레이핑 구성에 대한 자세한 내용은 Slurm 설명서의 지표 가이드를 참조하세요.