기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# Amazon SageMaker를 사용한 모델 훈련
<a name="how-it-works-training"></a>

Amazon SageMaker Training은 SageMaker에서 제공하는 완전 관리형 기계 학습(ML) 서비스로, 광범위한 ML 모델을 대규모로 효율적으로 훈련하는 데 도움이 됩니다. SageMaker AI 작업의 핵심은 ML 워크로드의 컨테이너화와 AWS 컴퓨팅 리소스 관리 기능입니다. SageMaker 훈련 플랫폼은 ML 훈련 워크로드에 대한 인프라 설정 및 관리와 관련된 과도한 부담을 처리합니다. SageMaker 훈련을 사용하면 모델 개발, 훈련 및 미세 조정에 집중할 수 있습니다. 이 페이지에서는 SageMaker에서 모델 훈련을 시작하는 세 가지 권장 방법과 고려할 수 있는 추가 옵션을 소개합니다.

**작은 정보**  
생성형 AI를 위한 파운데이션 모델 훈련에 대한 자세한 내용은 [Amazon SageMaker Studio에서 SageMaker JumpStart 파운데이션 모델 사용](https://docs.aws.amazon.com/sagemaker/latest/dg/jumpstart-foundation-models-use-studio-updated.html)을 참조하세요.

## Amazon SageMaker 훈련에서 기능 선택
<a name="choose-a-feature-of-sagemaker-training"></a>

SageMaker AI 내에서 ML 모델을 훈련하기 위한 세 가지 주요 사용 사례가 있습니다. 이 섹션에서는 이러한 사용 사례와 각 사용 사례에 권장되는 SageMaker AI 기능에 대해 설명합니다.

복잡한 딥 러닝 모델을 훈련하든 더 작은 기계 학습 알고리즘을 구현하든 SageMaker Training은 사용 사례의 요구 사항을 충족하는 간소화되고 비용 효율적인 솔루션을 제공합니다.

### 사용 사례
<a name="choose-use-cases-sagemaker-training"></a>

다음은 SageMaker AI 내에서 ML 모델을 훈련하기 위한 주요 사용 사례입니다.
+ **사용 사례 1**: 로우 코드 또는 노 코드 환경에서 기계 학습 모델을 개발합니다.
+ **사용 사례 2**: 코드를 사용하여 유연성과 제어력이 뛰어난 기계 학습 모델을 개발합니다.
+ **사용 사례 3**: 유연성과 제어력을 극대화하여 대규모 기계 학습 모델을 개발합니다.

### 권장 기능
<a name="choose-recommended-features-of-sagemaker-training"></a>

다음 표에서는 ML 모델 훈련의 세 가지 일반적인 시나리오와 SageMaker 훈련을 시작하기 위한 해당 옵션을 설명합니다.


| 설명자 | 사용 사례 1 | 사용 사례 2 | 사용 사례 3 | 
| --- | --- | --- | --- | 
| SageMaker AI 기능 | [Amazon SageMaker Canvas 를 사용하여 모델을 빌드합니다](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-build-model.html). | SageMaker Python SDK를 사용하여 [XGBoost](https://docs.aws.amazon.com/sagemaker/latest/dg/xgboost.html#xgboost-modes) 또는 SageMaker JumpStart의 [Task-Specific Models](https://docs.aws.amazon.com/sagemaker/latest/dg/jumpstart-models.html)과 같은 [SageMaker AI 내장 ML 알고리즘](https://docs.aws.amazon.com/sagemaker/latest/dg/algos.html) 중 하나를 사용하여 모델을 훈련합니다. | SageMaker AI에서 [스크립트 모드](https://sagemaker-examples.readthedocs.io/en/latest/sagemaker-script-mode/sagemaker-script-mode.html) 또는 [사용자 지정 컨테이너](https://docs.aws.amazon.com/sagemaker/latest/dg/docker-containers-adapt-your-own.html)를 최대한 유연하게 활용하여 대규모 모델을 훈련합니다. | 
| 설명 | 자체 데이터를 사용합니다. SageMaker AI는 ML 모델 구축과 훈련 인프라 및 리소스 설정을 관리하는 데 도움이 됩니다. | 데이터를 가져오고 SageMaker AI에서 제공하는 기본 제공 ML 알고리즘 중 하나를 선택합니다. SageMaker Python SDK를 사용하여 모델 하이퍼파라미터, 출력 지표 및 기본 인프라 설정을 설정합니다. SageMaker 훈련 플랫폼은 훈련 인프라 및 리소스를 프로비저닝하는 데 도움이 됩니다. | 자체 ML 코드를 개발하여 SageMaker AI에 스크립트 또는 스크립트 세트로 가져옵니다. 자세한 내용은 [ SageMaker를 사용한 분산 컴퓨팅 모범 사례 섹션](https://docs.aws.amazon.com/sagemaker/latest/dg/distributed-training-options.html#distributed-training-options-2)을 참조하세요. 또한 [자체 Docker 컨테이너](https://docs.aws.amazon.com/sagemaker/latest/dg/adapt-training-container.html#byoc-training-step2)를 가져올 수 있습니다. SageMaker 훈련 플랫폼은 사용자 지정 설정에 따라 대규모로 훈련 인프라 및 리소스를 프로비저닝하는 데 도움이 됩니다. | 
| 최적화 대상 | 훈련 데이터세트를 사용한 빠른 실험을 통해 코드 낮음/없음 및 UI 기반 모델 개발. [사용자 지정 모델을 빌드](canvas-build-model.md)하면 데이터를 기반으로 알고리즘이 자동으로 선택됩니다. 알고리즘 선택과 같은 고급 사용자 지정 옵션은 [고급 모델 구축 구성](canvas-advanced-settings.md)을 참조하세요. | 하이퍼파라미터, 인프라 설정 및 유연성을 높이기 위해 ML 프레임워크 및 진입점 스크립트를 직접 사용할 수 있는 기능에 대한 높은 수준의 사용자 지정으로 ML 모델을 훈련합니다. [Amazon SageMaker Python SDK](https://sagemaker.readthedocs.io/en/stable)를 통해 내장된 알고리즘, 사전 훈련된 모델 및 JumpStart 모델을 사용하여 ML 모델을 개발합니다. 자세한 내용은 [ JumpStart 클래스 를 사용한 로우코드 배포](https://sagemaker.readthedocs.io/en/stable/overview.html#low-code-deployment-with-the-jumpstartmodel-class)를 참조하세요. | ML은 워크로드를 대규모로 훈련하므로 여러 인스턴스와 최대의 유연성이 필요합니다. [SageMaker 모범 사례를 사용한 분산 컴퓨팅](distributed-training-options.md)을 참조하세요. SageMaker AI는 Docker 이미지를 사용하여 모든 모델의 훈련 및 서비스를 호스팅합니다. 모든 SageMaker AI 또는 외부 알고리즘을 사용하고 [Docker 컨테이너를 사용하여 모델을 빌드](docker-containers.md)할 수 있습니다. | 
| 고려 사항 | Amazon SageMaker Canvas에서 제공하는 모델을 사용자 지정할 수 있는 최소한의 유연성. | SageMaker Python SDK는 하위 수준 SageMaker 훈련 API에 비해 간소화된 인터페이스와 더 적은 구성 옵션을 제공합니다. |  AWS 인프라 및 분산 훈련 옵션에 대한 지식이 필요합니다. 또한 [SageMaker 훈련 툴킷](https://docs.aws.amazon.com/sagemaker/latest/dg/amazon-sagemaker-toolkits.html)을 사용하여 [자체 훈련 컨테이너 생성을 참조하세요](https://docs.aws.amazon.com/sagemaker/latest/dg/your-algorithms-training-algo.html). | 
| 권장 환경 | [Amazon SageMaker Canvas](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-getting-started.html#canvas-prerequisites)를 사용합니다. 설정 방법은 [ SageMaker Canvas 사용 시작하기](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-getting-started.html) 섹션을 참조하세요. | [Amazon SageMaker Studio](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-updated-launch.html) 내에서 [SageMaker AI JupyterLab](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-updated-jl.html)을 사용합니다. 설정 방법은 [Amazon SageMaker Studio 시작](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-updated-launch.html)을 참조하세요. | [Amazon SageMaker](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-updated-launch.html) 내에서 [SageMaker JupyterLab](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-updated-jl.html)을 사용합니다. 설정 방법은 [Amazon SageMaker Studio 시작](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-updated-launch.html)을 참조하세요. | 

## 추가 옵션
<a name="choose-additional-options-for-sagemaker-training"></a>

SageMaker AI는 ML 모델 훈련을 위해 다음과 같은 추가 옵션을 제공합니다.

**훈련 기능을 제공하는 SageMaker AI 기능**
+ **[SageMaker JumpStart](https://docs.aws.amazon.com/sagemaker/latest/dg/studio-jumpstart.html)**: SageMaker JumpStart는 공개적으로 사용 가능한 최신 독점 파운데이션 모델(FM)이 포함된 SageMaker AI 퍼블릭 모델 허브에 대한 액세스를 제공합니다. Amazon SageMaker Studio 내에서 이러한 모델을 미세 조정, 평가 및 배포할 수 있습니다. SageMaker JumpStart는 생성형 AI 사용 사례에 파운데이션 모델을 활용하는 프로세스를 간소화하고 프라이빗 모델 허브를 생성하여 파운데이션 모델을 사용하는 동시에 거버넌스 가드레일을 적용하고 조직이 승인된 모델에만 액세스할 수 있도록 합니다. SageMaker JumpStart 시작하려면 [SageMaker JumpStart Foundation 모델](https://docs.aws.amazon.com/sagemaker/latest/dg/jumpstart-foundation-models.html) 섹션을 참조하세요.
+ **[SageMaker HyperPod](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod.html)**: SageMaker HyperPod는 대규모 머신 러닝(ML) 워크로드 및 최첨단 파운데이션 모델(FM) 개발을 위해 탄력적인 클러스터가 필요한 사용 사례를 위한 지속적인 클러스터 서비스입니다. AWS Trainium 또는 NVIDIA A100 및 H100 그래픽 처리 장치(GPUs. Slurm on HyperPod와 같은 워크로드 관리자 소프트웨어를 사용할 수 있습니다.

**SageMaker 훈련의 추가 기능**
+ **[하이퍼파라미터 튜닝](https://docs.aws.amazon.com/sagemaker/latest/dg/automatic-model-tuning.html)**: 이 SageMaker AI 기능은 모델에 대한 하이퍼파라미터 세트를 정의하고 데이터세트에서 많은 훈련 작업을 시작하는 데 도움이 됩니다. 하이퍼파라미터 값에 따라 모델 훈련 성능이 달라질 수 있습니다. 이 기능은 검색하도록 설정한 주어진 하이퍼파라미터 범위 내에서 가장 성능이 좋은 하이퍼파라미터 세트를 제공합니다.
+ **[분산 훈련](https://docs.aws.amazon.com/sagemaker/latest/dg/distributed-training.html)**: PyTorch , NVIDIA CUDA 및 기타 PyTorch 기반 프레임워크로 구축된 사전 훈련 또는 미세 조정 FM입니다. GPU 인스턴스를 효율적으로 활용하려면 AWS 인프라에 최적화된 전문가 병렬 처리 및 공유 데이터 병렬 처리와 같은 다양한 모델 병렬 처리 기법과 집합 통신 작업을 제공하는 SageMaker AI 분산 훈련 라이브러리를 사용합니다.
+ **관찰 기능**: SageMaker Training의 프로파일링 및 디버깅 기능을 사용하여 모델 훈련 워크로드, 모델 성능 및 리소스 사용률에 대한 인사이트를 얻을 수 있습니다. 자세한 내용은 [모델 성능 및 프로파일 디버그 및 개선](https://docs.aws.amazon.com/sagemaker/latest/dg/train-debug-and-improve-model-performance.html)및 [계산 성능 최적화](https://docs.aws.amazon.com/sagemaker/latest/dg/train-profile-computational-performance.html)를 참조하세요.
+ **비용 절감 및 효율적인 인스턴스 옵션**: 인스턴스 프로비저닝을 훈련하기 위해 컴퓨팅 비용 및 효율성을 최적화하려면 [이종 클러스터](https://docs.aws.amazon.com/sagemaker/latest/dg/train-heterogeneous-cluster.html), [관리형 스팟 인스턴스](https://docs.aws.amazon.com/sagemaker/latest/dg/model-managed-spot-training.html) 또는 [관리형 웜 풀](https://docs.aws.amazon.com/sagemaker/latest/dg/train-warm-pools.html)을 사용합니다.