

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# HyperPod 체크포인트 없는 훈련 기능
<a name="sagemaker-eks-checkpointless-features"></a>

체크포인트 없는 훈련의 훈련 기능에 대해 알아보려면 다음 페이지를 참조하세요.

**Topics**
+ [Amazon SageMaker HyperPod 체크포인트 없는 훈련 리포지토리](#sagemaker-eks-checkpointless-repositories)
+ [집합 통신 초기화 개선 사항](sagemaker-eks-checkpointless-features-communication.md)
+ [메모리 매핑된 데이터 로더](sagemaker-eks-checkpointless-features-mmap.md)
+ [프로세스 중 복구 및 체크포인트 없는 훈련](sagemaker-eks-checkpointless-in-process-recovery.md)

## Amazon SageMaker HyperPod 체크포인트 없는 훈련 리포지토리
<a name="sagemaker-eks-checkpointless-repositories"></a>

[ HyperPod 체크포인트 없는 훈련](https://github.com/aws/sagemaker-hyperpod-checkpointless-training#)은 프레임워크 수준 최적화를 통해 대규모 분산 훈련 환경에서 클러스터 장애 복구를 가속화합니다. 이러한 최적화는 향상된 NCCL 초기화 개선 사항, 데이터 로드 최적화, 진행 중 및 체크포인트 없는 복구 구성 요소가 포함된 기본 컨테이너 이미지를 통해 제공됩니다. HyperPod 체크포인트 없는 훈련 패키지는이 기반을 기반으로 합니다.

체크포인트 없는 훈련은 함께 실행되는 세 개의 최적화 트랙을 통해 활성화됩니다.
+ **통신 초기화 개선(NCCL 및 Gloo)** - 순위 피어 및 링 정보를 분산하여 통신 병목 현상을 제거합니다(아래 빨간색 상자).
+ **데이터 로드 최적화** - 재시작 작업 중에 첫 번째 데이터 배치를 제공하는 데 필요한 시간을 줄입니다(아래 주황색 상자).
+ **프로그램 재시작 오버헤드 감소** - 정상 노드(아래 파란색 및 녹색 상자)에서 프로세스 복구를 통해 재시작 비용을 최소화하고 체크포인트 없는 보충을 활성화합니다.

![](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/hyperpod/hyperpod-checkpointless-optimization-tracks.png)
