HyperPod 체크포인트 없는 훈련 기능 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

HyperPod 체크포인트 없는 훈련 기능

체크포인트 없는 훈련의 훈련 기능에 대해 알아보려면 다음 페이지를 참조하세요.

Amazon SageMaker HyperPod 체크포인트 없는 훈련 리포지토리

HyperPod 체크포인트 없는 훈련은 프레임워크 수준 최적화를 통해 대규모 분산 훈련 환경에서 클러스터 장애 복구를 가속화합니다. 이러한 최적화는 향상된 NCCL 초기화 개선 사항, 데이터 로드 최적화, 진행 중 및 체크포인트 없는 복구 구성 요소가 포함된 기본 컨테이너 이미지를 통해 제공됩니다. HyperPod 체크포인트 없는 훈련 패키지는이 기반을 기반으로 구축되었습니다.

체크포인트 없는 훈련은 공동으로 실행되는 세 개의 최적화 트랙을 통해 활성화됩니다.

  • 통신 초기화 개선(NCCL 및 Gloo) - 순위 피어 및 링 정보를 분산하여 통신 병목 현상을 제거합니다(아래 빨간색 상자).

  • 데이터 로드 최적화 - 재시작 작업 중에 첫 번째 데이터 배치를 제공하는 데 필요한 시간을 줄입니다(아래 주황색 상자).

  • 프로그램 재시작 오버헤드 감소 - 정상 노드(아래 파란색 및 녹색 상자)에서 프로세스 복구를 통해 재시작 비용을 최소화하고 체크포인트 없는 보충을 활성화합니다.