View a markdown version of this page

Amazon Managed Grafana 및 Amazon Managed Service for Prometheus에서의 Amazon SageMaker HyperPod 관찰성 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon Managed Grafana 및 Amazon Managed Service for Prometheus에서의 Amazon SageMaker HyperPod 관찰성

Amazon SageMaker HyperPod(SageMaker HyperPod)는 파운데이션 모델(FM) 개발 작업 및 클러스터 리소스에 대한 인사이트를 제공하는 포괄적인 대시보드를 기본 제공합니다. 이 통합 관찰성 솔루션은 Amazon Managed Service for Prometheus에 주요 지표를 자동으로 게시하고 Amazon Managed Grafana 대시보드에 표시합니다. 대시보드는 하드웨어 상태, 리소스 사용률 및 작업 수준 성능을 심층적으로 다루어 FM 개발에 특히 최적화되어 있습니다. 이 추가 기능을 사용하면 NVIDIA DCGM, 인스턴스 수준 Kubernetes 노드 내보내기 도구, Elastic Fabric Adapter, 통합 파일 시스템, Kubernetes API, Kueue 및 SageMaker HyperPod 작업 운영자의 상태 및 성능 데이터를 통합할 수 있습니다.

제한된 인스턴스 그룹(RIG) 지원

관찰성 추가 기능은 제한된 인스턴스 그룹이 포함된 클러스터도 지원합니다. RIG 클러스터에서 추가 기능은 제한된 노드의 네트워크 격리 및 보안 제약 조건을 준수하도록 배포 전략을 자동으로 조정합니다. DaemonSet 구성 요소(노드 내보내기, DCGM 내보내기, EFA 내보내기, Neuron 모니터 및 노드 수집기)는 표준 노드와 제한된 노드 모두에서 실행됩니다. 배포 구성 요소(중앙 수집기, Kube 상태 지표 및 훈련 지표 에이전트)는 인스턴스 그룹 간의 네트워크 격리를 준수하기 위해 경계 인식 로직으로 예약됩니다. Fluent Bit를 사용한 컨테이너 로그 수집은 제한된 노드에서 사용할 수 없습니다.

제한된 인스턴스 그룹이 있는 클러스터에서 추가 기능을 설정하는 방법에 대한 자세한 내용은 섹션을 참조하세요SageMaker HyperPod 관찰성 추가 기능 설정.