기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
AWS PCS의 Slurm 지표
AWS PCS는 Prometheus 및 기타 모니터링 시스템과 호환되는 HTTP 엔드포인트를 통해 실시간 클러스터 데이터를 노출하는 Slurm의 지표 기능을 지원합니다. 성능 영향 및 보안 고려 사항을 포함한 자세한 내용은 Slurm 설명서의 지표 가이드를 참조하세요
사전 조건
Slurm 지표를 활성화하기 전에 다음을 확인해야 합니다.
-
클러스터 버전: Slurm 버전 25.11 이상.
-
보안 그룹: 원하는 소스의 포트 6817에서 HTTP 트래픽을 허용하는 규칙입니다.
지표 엔드포인트 활성화
다음 클러스터 수준 사용자 지정 Slurm 설정을 지정합니다.
-
MetricsType-와 같이 지원되는 지표 플러그인을 지정해야 합니다metrics/openmetrics. -
CommunicationParameters-를 포함해야 합니다enable_http.중요
를 활성화하면 인증되지 않은 HTTP 엔드포인트가
enable_http표시됩니다. 포트 6817에 대한 네트워크 액세스 권한이 있는 사람은 누구나 클러스터, 작업 및 노드 지표를 읽을 수 있습니다. 보안 그룹 규칙을 사용하여 신뢰할 수 있는 소스에 대한 액세스만 제한합니다. -
PrivateData- 설정하면 안 됩니다.
사용자 지정 Slurm 설정에 대한 자세한 내용은 섹션을 참조하세요AWS PCS에서 사용자 지정 Slurm 설정 구성.
지표 엔드포인트 사용
컨트롤러에 대한 네트워크 액세스 권한이 있는 호스트에서 지표 엔드포인트를 쿼리합니다.
curl http://controller-ip:6817/metrics
사용 가능한 지표 및 스크레이핑 구성에 대한 자세한 내용은 Slurm 설명서의 지표 가이드를 참조하세요