

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# Amazon SageMaker HyperPod의 체크포인트 없는 훈련
<a name="sagemaker-eks-checkpointless"></a>

Amazon SageMaker HyperPod에 대한 체크포인트 없는 훈련을 통해 훈련 인프라 장애로부터 더 빠르게 복구할 수 있습니다. 다음 설명서는 NeMo 지원 모델에 대한 체크포인트 없는 훈련 및 미세 조정을 시작하는 데 도움이 됩니다.

체크포인트 없는 훈련에는 다음과 같은 사전 조건이 있습니다.
+ [SageMaker HyperPod에서 Amazon EKS 지원 시작하기](sagemaker-hyperpod-eks-prerequisites.md)
+ [훈련 운영자 설치](sagemaker-eks-operator-install.md). v1.2.0 이상을 설치해야 합니다.

 SageMaker HyperPod에 대한 체크포인트 없는 훈련은 [ NVIDIA NeMo 프레임워크 사용 설명서를](https://docs.nvidia.com/nemo-framework/user-guide/latest/nemotoolkit/core/exp_manager.html#experiment-manager) 기반으로 구축되었습니다. 사전 생성된 SageMaker HyperPod 레시피를 사용하여 체크포인트 없는 훈련을 실행할 수 있습니다. NeMo에 익숙하다면 체크포인트 없는 훈련 레시피를 사용하는 프로세스는 비슷합니다. 사소한 변경으로 인해 훈련 장애로부터 신속하게 복구할 수 있는 체크포인트 없는 훈련 기능을 사용하여 모델 훈련을 시작할 수 있습니다.

다음 HyperPod 레시피는 체크포인트 없는 훈련 최적화로 사전 구성되어 있습니다. 레시피의 일부로 데이터 경로를 지정하고 연결된 시작 스크립트를 사용하여 훈련을 실행할 수 있습니다(아래 빠른 시작 가이드 참조).


| 모델 | 방법 | Size: | Nodes(노드) | Instance | 액셀러레이터 | 방법 | Script | 자습서 | 
| --- | --- | --- | --- | --- | --- | --- | --- | --- | 
| GPT OS | 전체 미세 조정 예제 | 120b | 16 | p5.48xlarge | GPU H100 | [link](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/recipes_collection/recipes/fine-tuning/gpt_oss/checkpointless_gpt_oss_120b_full_fine_tuning.yaml) | [link](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/launcher_scripts/gpt_oss/run_checkpointless_gpt_oss_120b_full_fine_tuning.sh) | [link](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-eks-checkpointless-recipes-finetune.html) | 
| GPT OS | LoRA 예 | 120b | 2 | p5.48xlarge | GPU H100 | [link](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/recipes_collection/recipes/fine-tuning/gpt_oss/checkpointless_gpt_oss_120b_lora.yaml) | [link](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/launcher_scripts/gpt_oss/run_checkpointless_gpt_oss_120b_lora.sh) | [link](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-eks-checkpointless-recipes-peft.html) | 
| Llama3 | 훈련 전 예제 | 70b | 16 | p5.48xlarge | GPU H100 | [link](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/recipes_collection/recipes/training/llama/checkpointless_llama3_70b_pretrain.yaml) | [link](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/launcher_scripts/llama/run_checkpointless_llama3_70b_pretrain.sh) | [link](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-eks-checkpointless-recipes-pretraining-llama3.html) | 
| Llama3 | LoRA 예 | 70b | 2 | p5.48xlarge | GPU H100 | [link](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/recipes_collection/recipes/fine-tuning/llama/checkpointless_llama3_70b_lora.yaml) | [link](https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/launcher_scripts/llama/run_checkpointless_llama3_70b_lora.sh) | [link](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-eks-checkpointless-recipes-peft-llama.html) | 

다음 빠른 시작 안내서에서는 체크포인트 없는 훈련 레시피를 사용하기 위한 자습서를 제공합니다.

**시작하기 예제**
+ [자습서 - Amazon SageMaker HyperPod 체크포인트리스 전체 미세 조정 GPT OSS 120b](sagemaker-eks-checkpointless-recipes-finetune.md)
+ [자습서 - Amazon SageMaker HyperPod 체크포인트리스 PEFT-LoRA GPT OSS 120b](sagemaker-eks-checkpointless-recipes-peft.md)
+ [자습서 - Amazon SageMaker HyperPod 체크포인트리스 사전 훈련 Llama 3 70b](sagemaker-eks-checkpointless-recipes-pretraining-llama3.md)
+ [자습서 - Amazon SageMaker HyperPod 체크포인트리스 PEFT-LoRA Llama 3 70b](sagemaker-eks-checkpointless-recipes-peft-llama.md)

사용자 지정 모델을 사전 훈련하거나 미세 조정하려면 섹션을 참조하세요[자습서 - Amazon SageMaker HyperPod 체크포인트 없는 사전 훈련 또는 사용자 지정 모델 미세 조정](sagemaker-eks-checkpointless-recipes-custom.md).

특정 체크포인트 없는 훈련 구성 요소를 통합하는 방법에 대해 자세히 알아보려면 섹션을 참조하세요[HyperPod 체크포인트 없는 훈련 기능](sagemaker-eks-checkpointless-features.md).