Amazon SageMaker HyperPod의 체크포인트 없는 훈련 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon SageMaker HyperPod의 체크포인트 없는 훈련

Amazon SageMaker HyperPod에 대한 체크포인트 없는 훈련을 통해 훈련 인프라 장애로부터 더 빠르게 복구할 수 있습니다. 다음 설명서는 NeMo 지원 모델에 대한 체크포인트 없는 훈련 및 미세 조정을 시작하는 데 도움이 됩니다.

체크포인트 없는 훈련에는 다음과 같은 사전 조건이 있습니다.

SageMaker HyperPod에 대한 체크포인트 없는 훈련은 NVIDIA NeMo 프레임워크 사용 설명서를 기반으로 구축되었습니다. 사전 생성된 SageMaker HyperPod 레시피를 사용하여 체크포인트 없는 훈련을 실행할 수 있습니다. NeMo에 익숙하다면 체크포인트 없는 훈련 레시피를 사용하는 프로세스는 비슷합니다. 사소한 변경으로 인해 훈련 장애로부터 신속하게 복구할 수 있는 체크포인트 없는 훈련 기능을 사용하여 모델 훈련을 시작할 수 있습니다.

다음 HyperPod 레시피는 체크포인트 없는 훈련 최적화로 사전 구성되어 있습니다. 레시피의 일부로 데이터 경로를 지정하고 연결된 시작 스크립트를 사용하여 훈련을 실행할 수 있습니다(아래 빠른 시작 가이드 참조).

모델 방법 Size: Nodes(노드) Instance 액셀러레이터 방법 Script 자습서
GPT OSS 전체 미세 조정 예제 120b 16 p5.48xlarge GPU H100 link link link
GPT OSS LoRA 예 120b 2 p5.48xlarge GPU H100 link link link
Llama3 훈련 전 예제 70b 16 p5.48xlarge GPU H100 link link link
Llama3 LoRA 예 70b 2 p5.48xlarge GPU H100 link link link

다음 빠른 시작 안내서에서는 체크포인트 없는 훈련 레시피를 사용하기 위한 자습서를 제공합니다.

시작하기 예제

사용자 지정 모델을 사전 훈련하거나 미세 조정하려면 섹션을 참조하세요자습서 - Amazon SageMaker HyperPod 체크포인트 없는 사전 훈련 또는 사용자 지정 모델 미세 조정.

특정 체크포인트 없는 훈련 구성 요소를 통합하는 방법에 대해 자세히 알아보려면 섹션을 참조하세요HyperPod 체크포인트 없는 훈련 기능.