기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon SageMaker HyperPod 관찰성 대시보드
이 주제에서는 Amazon SageMaker HyperPod(SageMaker HyperPod) 클러스터의 지표 대시보드를 보는 방법과 대시보드에 새 사용자를 추가하는 방법을 설명합니다. 또한 다양한 유형의 대시보드에 대해 설명합니다.
대시보드 액세스
Amazon Managed Grafana에서 SageMaker HyperPod 클러스터의 지표를 보려면 다음 단계를 수행합니다.
https://console.aws.amazon.com/sagemaker/
에서 Amazon SageMaker AI 콘솔을 엽니다. -
클러스터의 세부 정보 페이지로 이동합니다.
-
대시보드 탭에서 HyperPod 관찰성 섹션을 찾아 Grafana에서 대시보드 열기를 선택합니다.
Amazon Managed Grafana 작업 영역에 새 사용자 추가
Amazon Managed Grafana 작업 영역에 사용자를 추가하는 방법에 대한 자세한 내용은 Amazon Managed Grafana 사용 설명서의 Use AWS IAM Identity Center with your Amazon Managed Grafana workspace를 참조하세요.
관찰성 대시보드
SageMaker HyperPod 관찰성 추가 기능은 기본 Amazon Managed Grafana 작업 영역에서 상호 연결된 대시보드 5개를 제공합니다. 각 대시보드는 데이터 과학자, 기계 학습 엔지니어, 관리자와 같은 다양한 사용자를 위해 클러스터의 다양한 리소스 및 작업에 대한 심층적인 인사이트를 제공합니다.
작업 대시보드
작업 대시보드는 SageMaker HyperPod 작업에 대한 리소스 사용률 지표를 포괄적으로 모니터링하고 시각화합니다. 메인 패널에는 상위 작업별로 리소스 사용량을 그룹화하여 포드 전반의 CPU, GPU 및 메모리 사용률을 보여주는 자세한 테이블이 표시됩니다. 대화형 시계열 그래프는 선택한 포드의 CPU 사용량, 시스템 메모리 사용량, GPU 사용률 및 GPU 메모리 사용량을 추적하므로 시간 경과에 따른 성능 추세를 모니터링할 수 있습니다. 대시보드는 클러스터 이름, 네임스페이스, 작업 유형 및 특정 포드와 같은 변수를 통해 강력한 필터링 기능을 제공하므로 특정 워크로드를 쉽게 드릴다운할 수 있습니다. 이 모니터링 솔루션은 리소스 할당을 최적화하고 SageMaker HyperPod에서 기계 학습 워크로드의 성능을 유지하는 데 필수적입니다.
훈련 대시보드
훈련 대시보드는 훈련 작업 상태, 신뢰성 및 장애 관리 지표에 대한 포괄적인 모니터링을 제공합니다. 대시보드에는 자동 및 수동 재시작 이벤트에 대한 세부 추적과 함께 작업 생성 횟수, 성공률 및 가동 시간 백분율을 비롯한 주요 성능 지표가 있습니다. 유형 및 문제 해결 지연 시간별로 인시던트를 분류하는 파이형 차트와 히트맵을 통해 장애 패턴을 세부적으로 시각화하여 반복되는 문제를 식별하고 작업 신뢰성을 최적화할 수 있습니다. 인터페이스에는 시스템 복구 시간 및 장애 감지 지연 시간과 같은 중요한 지표에 대한 실시간 모니터링이 포함되어 있으므로 훈련 워크로드의 고가용성을 유지하기 위한 필수 도구입니다. 또한 대시보드의 24시간 후행 기간은 훈련 작업 성능의 추세와 패턴을 분석하기 위한 과거 컨텍스트를 제공하므로 프로덕션 워크로드에 영향을 미치기 전에 팀이 잠재적 문제를 사전에 해결할 수 있습니다.
추론 대시보드
추론 대시보드는 여러 차원에서 모델 배포 성능 및 상태 지표를 포괄적으로 모니터링합니다. 활성 배포 및 요청률의 실시간 모니터링, 성공률 및 지연 시간 지표에 대한 자세한 개요를 제공하므로 모델 서비스 성능을 추적하고 잠재적 병목 현상을 식별할 수 있습니다. 대시보드에는 일반적인 추론 지표와 첫 번째 토큰까지의 시간(TTFT) 및 토큰 처리량과 같은 언어 모델의 토큰별 지표 모두에 대한 특수 패널이 포함되어 있으므로 대규모 언어 모델 배포를 모니터링하는 데 특히 유용합니다. 또한 포드 및 노드 할당 추적을 통해 인프라 인사이트를 제공하는 동시에 추론 워크로드의 고가용성과 성능을 유지하는 데 도움이 되는 자세한 오류 분석 기능을 제공합니다.
클러스터 대시보드
클러스터 대시보드는 클러스터 상태 및 성능에 대한 포괄적인 뷰를 제공하여 Amazon SageMaker HyperPod(SageMaker HyperPod) 환경 전반의 컴퓨팅, 메모리, 네트워크 및 스토리지 리소스에 대한 실시간 가시성을 제공합니다. 몇 초마다 데이터를 자동으로 업데이트하는 직관적인 인터페이스를 통해 총 인스턴스 수, GPU 사용률, 메모리 사용량 및 네트워크 성능을 포함한 중요한 지표를 한눈에 볼 수 있습니다. 대시보드는 정상 인스턴스 백분율 및 총 리소스 수와 같은 주요 지표를 표시하는 개괄적인 클러스터 개요부터 GPU 성능, 메모리 사용률, 네트워크 통계 및 스토리지 지표에 대한 세부 섹션으로 구성된 논리적 섹션으로 구성됩니다. 각 섹션에는 클러스터 이름, 인스턴스 또는 GPU ID별로 사용자 지정 가능한 시간 범위 및 필터링 옵션을 사용하여 특정 지표로 드릴다운할 수 있는 대화형 그래프와 패널이 있습니다.
파일 시스템 대시보드
파일 시스템 대시보드는 파일 시스템(Amazon FSx for Lustre) 성능 및 상태 지표에 대한 포괄적인 가시성을 제공합니다. 대시보드에는 여유 용량, 중복 제거 절감, CPU/메모리 사용률, 디스크 IOPS, 처리량, 여러 시각화의 클라이언트 연결 등 중요한 스토리지 지표가 표시됩니다. 이를 통해 CPU 및 메모리 사용량과 같은 시스템 수준 성능 지표와 읽기/쓰기 작업 및 디스크 사용률 패턴과 같은 스토리지별 지표를 모두 모니터링할 수 있습니다. 인터페이스에는 시간 경과에 따른 성능 추세를 추적하기 위한 알림 모니터링 기능과 세부 시계열 그래프가 포함되어 있으므로 선제적인 유지 관리 및 용량 계획에 유용합니다. 또한 대시보드는 포괄적인 지표 범위를 통해 잠재적 병목 현상을 식별하고, 스토리지 성능을 최적화하고, SageMaker HyperPod 워크로드에 대한 안정적인 파일 시스템 작업을 보장하는 데 도움이 됩니다.
GPU 파티션 대시보드
다중 인스턴스 GPU(MIG) 구성을 사용할 때 GPU 파티션별 지표를 모니터링하려면 최신 버전의 SageMaker HyperPod Observability 추가 기능을 설치하거나 업그레이드해야 합니다. 이 추가 기능은 파티션 수, 메모리 사용량, GPU 파티션당 컴퓨팅 사용률과 같은 MIG별 지표를 포함하여 포괄적인 모니터링 기능을 제공합니다.
SageMaker HyperPod Observability가 이미 설치되어 있지만 MIG 지표 지원이 필요한 경우 추가 기능을 최신 버전으로 업데이트하기만 하면 됩니다. 이 프로세스는 중단되지 않으며 기존 모니터링 구성을 유지합니다.
SageMaker HyperPod는 다음을 포함한 MIG별 지표를 자동으로 노출합니다.
-
nvidia_mig_instance_count: 프로파일당 MIG 인스턴스 수 -
nvidia_mig_memory_usage: MIG 인스턴스당 메모리 사용률 -
nvidia_mig_compute_utilization: MIG 인스턴스당 컴퓨팅 사용률