Amazon SageMaker를 사용한 모델 훈련 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon SageMaker를 사용한 모델 훈련

Amazon SageMaker Training은 SageMaker에서 제공하는 완전 관리형 기계 학습(ML) 서비스로, 광범위한 ML 모델을 대규모로 효율적으로 훈련하는 데 도움이 됩니다. SageMaker AI 작업의 핵심은 ML 워크로드의 컨테이너화와 AWS 컴퓨팅 리소스 관리 기능입니다. SageMaker 훈련 플랫폼은 ML 훈련 워크로드에 대한 인프라 설정 및 관리와 관련된 과도한 부담을 처리합니다. SageMaker 훈련을 사용하면 모델 개발, 훈련 및 미세 조정에 집중할 수 있습니다. 이 페이지에서는 SageMaker에서 모델 훈련을 시작하는 세 가지 권장 방법과 고려할 수 있는 추가 옵션을 소개합니다.

작은 정보

생성형 AI를 위한 파운데이션 모델 훈련에 대한 자세한 내용은 Amazon SageMaker Studio에서 SageMaker JumpStart 파운데이션 모델 사용을 참조하세요.

Amazon SageMaker 훈련에서 기능 선택

SageMaker AI 내에서 ML 모델을 훈련하기 위한 세 가지 주요 사용 사례가 있습니다. 이 섹션에서는 이러한 사용 사례와 각 사용 사례에 권장되는 SageMaker AI 기능에 대해 설명합니다.

복잡한 딥 러닝 모델을 훈련하든 더 작은 기계 학습 알고리즘을 구현하든 SageMaker Training은 사용 사례의 요구 사항을 충족하는 간소화되고 비용 효율적인 솔루션을 제공합니다.

사용 사례

다음은 SageMaker AI 내에서 ML 모델을 훈련하기 위한 주요 사용 사례입니다.

  • 사용 사례 1: 로우 코드 또는 노 코드 환경에서 기계 학습 모델을 개발합니다.

  • 사용 사례 2: 코드를 사용하여 유연성과 제어력이 뛰어난 기계 학습 모델을 개발합니다.

  • 사용 사례 3: 유연성과 제어력을 극대화하여 대규모 기계 학습 모델을 개발합니다.

다음 표에서는 ML 모델 훈련의 세 가지 일반적인 시나리오와 SageMaker 훈련을 시작하기 위한 해당 옵션을 설명합니다.

설명자 사용 사례 1 사용 사례 2 사용 사례 3
SageMaker AI 기능 Amazon SageMaker Canvas 를 사용하여 모델을 빌드합니다. SageMaker Python SDK를 사용하여 SageMaker JumpStart의 XGBoost 또는 Task-Specific Models와 같은 SageMaker AI 내장 ML 알고리즘 중 하나를 사용하여 모델을 훈련합니다. XGBoost SageMaker JumpStart SageMaker SageMaker AI에서 스크립트 모드 또는 사용자 지정 컨테이너를 최대한 유연하게 활용하여 대규모로 모델을 훈련합니다.
설명 자체 데이터를 사용합니다. SageMaker AI는 ML 모델 구축과 훈련 인프라 및 리소스 설정을 관리하는 데 도움이 됩니다.

데이터를 가져오고 SageMaker AI에서 제공하는 기본 제공 ML 알고리즘 중 하나를 선택합니다. SageMaker Python SDK를 사용하여 모델 하이퍼파라미터, 출력 지표 및 기본 인프라 설정을 설정합니다. SageMaker 훈련 플랫폼은 훈련 인프라 및 리소스를 프로비저닝하는 데 도움이 됩니다.

자체 ML 코드를 개발하여 SageMaker AI에 스크립트 또는 스크립트 세트로 가져옵니다. 자세한 내용은 SageMaker를 사용한 분산 컴퓨팅 모범 사례 섹션을 참조하세요. 또한 자체 Docker 컨테이너를 가져올 수 있습니다. SageMaker 훈련 플랫폼은 사용자 지정 설정에 따라 대규모로 훈련 인프라 및 리소스를 프로비저닝하는 데 도움이 됩니다.

최적화 대상

훈련 데이터세트를 사용한 빠른 실험을 통해 코드 낮음/없음 및 UI 기반 모델 개발. 사용자 지정 모델을 빌드하면 데이터를 기반으로 알고리즘이 자동으로 선택됩니다. 알고리즘 선택과 같은 고급 사용자 지정 옵션은 고급 모델 구축 구성을 참조하세요.

하이퍼파라미터, 인프라 설정 및 유연성을 높이기 위해 ML 프레임워크 및 진입점 스크립트를 직접 사용할 수 있는 기능에 대한 높은 수준의 사용자 지정으로 ML 모델을 훈련합니다. Amazon SageMaker Python SDK를 통해 내장된 알고리즘, 사전 훈련된 모델 및 JumpStart 모델을 사용하여 ML 모델을 개발합니다. 자세한 내용은 JumpStart 클래스 를 사용한 로우코드 배포를 참조하세요.

ML은 워크로드를 대규모로 훈련하므로 여러 인스턴스와 최대의 유연성이 필요합니다. SageMaker 모범 사례를 사용한 분산 컴퓨팅을 참조하세요. SageMaker AI는 Docker 이미지를 사용하여 모든 모델의 훈련 및 서비스를 호스팅합니다. 모든 SageMaker AI 또는 외부 알고리즘을 사용하고 Docker 컨테이너를 사용하여 모델을 빌드할 수 있습니다.

고려 사항

Amazon SageMaker Canvas에서 제공하는 모델을 사용자 지정할 수 있는 최소한의 유연성.

SageMaker Python SDK는 하위 수준 SageMaker 훈련 API에 비해 간소화된 인터페이스와 더 적은 구성 옵션을 제공합니다.

AWS 인프라 및 분산 훈련 옵션에 대한 지식이 필요합니다. 또한 SageMaker 훈련 툴킷을 사용하여 자체 훈련 컨테이너 생성을 참조하세요.

권장 환경 Amazon SageMaker Canvas를 사용합니다. 설정 방법은 SageMaker Canvas 사용 시작하기 섹션을 참조하세요. Amazon SageMaker Studio 내에서 SageMaker AI JupyterLab을 사용합니다. Amazon SageMaker 설정 방법은 Amazon SageMaker Studio 시작을 참조하세요. Amazon SageMaker 내에서 SageMaker JupyterLab을 사용합니다. 설정 방법은 Amazon SageMaker Studio 시작을 참조하세요.

추가 옵션

SageMaker AI는 ML 모델 훈련을 위한 다음과 같은 추가 옵션을 제공합니다.

훈련 기능을 제공하는 SageMaker AI 기능

  • SageMaker JumpStart: SageMaker JumpStart는 공개적으로 사용 가능한 최신 독점 파운데이션 모델(FMs)이 포함된 SageMaker AI 퍼블릭 모델 허브에 대한 액세스를 제공합니다. Amazon SageMaker Studio 내에서 이러한 모델을 미세 조정, 평가 및 배포할 수 있습니다. SageMaker JumpStart는 생성형 AI 사용 사례에 파운데이션 모델을 활용하는 프로세스를 간소화하고 프라이빗 모델 허브를 생성하여 파운데이션 모델을 사용하는 동시에 거버넌스 가드레일을 적용하고 조직이 승인된 모델에만 액세스할 수 있도록 합니다. SageMaker JumpStart 시작하려면 SageMaker JumpStart Foundation 모델 섹션을 참조하세요.

  • SageMaker HyperPod: SageMaker HyperPod는 대규모 머신 러닝(ML) 워크로드 및 최첨단 파운데이션 모델(FM) 개발을 위해 탄력적인 클러스터가 필요한 사용 사례를 위한 지속적인 클러스터 서비스입니다. AWS Trainium 또는 NVIDIA A100 및 H100 그래픽 처리 장치(GPUs. Slurm on HyperPod와 같은 워크로드 관리자 소프트웨어를 사용할 수 있습니다.

SageMaker 훈련의 추가 기능

  • 하이퍼파라미터 튜닝:이 SageMaker AI 기능은 모델에 대한 하이퍼파라미터 세트를 정의하고 데이터세트에서 많은 훈련 작업을 시작하는 데 도움이 됩니다. 하이퍼파라미터 값에 따라 모델 훈련 성능이 달라질 수 있습니다. 이 기능은 검색하도록 설정한 주어진 하이퍼파라미터 범위 내에서 가장 성능이 좋은 하이퍼파라미터 세트를 제공합니다.

  • 분산 훈련: PyTorch , NVIDIA CUDA 및 기타 PyTorch 기반 프레임워크로 구축된 사전 훈련 또는 미세 조정 FM입니다. GPU 인스턴스를 효율적으로 활용하려면 집단 통신 작업과 인프라에 최적화된 전문가 병렬 처리 및 공유 데이터 병렬 처리와 같은 다양한 모델 병렬 처리 기술을 제공하는 SageMaker AI 분산 훈련 라이브러리를 AWS 사용하세요.

  • 관찰 기능: SageMaker Training의 프로파일링 및 디버깅 기능을 사용하여 모델 훈련 워크로드, 모델 성능 및 리소스 사용률에 대한 인사이트를 얻을 수 있습니다. 자세한 내용은 모델 성능 및 프로파일 디버그 및 개선계산 성능 최적화를 참조하세요.

  • 비용 절감 및 효율적인 인스턴스 옵션: 인스턴스 프로비저닝을 훈련하기 위해 컴퓨팅 비용 및 효율성을 최적화하려면 이종 클러스터, 관리형 스팟 인스턴스 또는 관리형 웜 풀을 사용합니다.