기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
HyperPod 체크포인트 없는 훈련 기능
체크포인트 없는 훈련의 훈련 기능에 대해 알아보려면 다음 페이지를 참조하세요.
Amazon SageMaker HyperPod 체크포인트 없는 훈련 리포지토리
HyperPod 체크포인트 없는 훈련
체크포인트 없는 훈련은 공동으로 실행되는 세 개의 최적화 트랙을 통해 활성화됩니다.
-
통신 초기화 개선(NCCL 및 Gloo) - 순위 피어 및 링 정보를 분산하여 통신 병목 현상을 제거합니다(아래 빨간색 상자).
-
데이터 로드 최적화 - 재시작 작업 중에 첫 번째 데이터 배치를 제공하는 데 필요한 시간을 줄입니다(아래 주황색 상자).
-
프로그램 재시작 오버헤드 감소 - 정상 노드(아래 파란색 및 녹색 상자)에서 프로세스 복구를 통해 재시작 비용을 최소화하고 체크포인트 없는 보충을 활성화합니다.