Amazon SageMaker HyperPod에서 Amazon Nova 사용자 지정

Amazon Nova 모델은 Amazon Nova 레시피를 사용해 사용자 지정할 수 있으며, 이를 Amazon SageMaker HyperPod에서 훈련시킬 수 있습니다. 레시피는 SageMaker AI가 모델 사용자 지정 작업을 수행하는 방법에 대한 세부 정보를 제공하는 YAML 구성 파일입니다.

Amazon SageMaker HyperPod는 최적화된 GPU 인스턴스와 Amazon FSx for Lustre 스토리지를 통한 고속 연산, TensorBoard 등의 도구와의 통합을 통한 강력한 모니터링, 반복적인 성능 향상을 위한 유연한 체크포인트 관리, Amazon Bedrock으로의 원활한 추론 배포, 효율적이고 확장 가능한 다중 노드 분산 훈련을 통해 고성능 컴퓨팅 환경을 제공합니다. 이 모든 기능이 결합되어 조직이 자신들의 비즈니스 요구 사항에 맞게 Nova 모델을 안전하고 성능이 뛰어나며 유연성을 갖춘 환경에서 맞춤화할 수 있도록 지원합니다.

Amazon SageMaker HyperPod에서 Amazon Nova 모델을 사용자 지정할 경우, 모델 체크포인트를 포함한 모델 아티팩트는 서비스 관리형 Amazon S3 버킷에 저장됩니다. 서비스 관리형 버킷의 아티팩트는 SageMaker 관리형 AWS KMS 키로 암호화됩니다. 현재 서비스 관리형 Amazon S3 버킷은 고객 관리형 KMS 키를 사용한 데이터 암호화를 지원하지 않습니다. 이 체크포인트 저장 위치는 평가 작업 또는 Amazon Bedrock 추론에 활용할 수 있습니다.

컴퓨팅 인스턴스, Amazon S3 스토리지 및 FSx for Lustre에 표준 요금이 적용될 수 있습니다. 요금 세부 정보는 SageMaker HyperPod 요금, Amazon S3 요금 및 FSx for Lustre 요금을 참조하세요.

컴퓨팅 요구 사항

다음 표에는 SageMaker HyperPod 훈련을 위한 컴퓨팅 요구 사항이 요약되어 있습니다.

사전 훈련
모델	시퀀스 길이	노드	Instance	액셀러레이터
Amazon Nova Micro	8,192	8	ml.p5.48xlarge	GPU H100
Amazon Nova Lite	8,192	16	ml.p5.48xlarge	GPU H100
Amazon Nova Pro	8,192	24	ml.p5.48xlarge	GPU H100

직접 선호 최적화(DPO)
모델	시퀀스 길이	노드 수	Instance	액셀러레이터
직접 선호 최적화(Full)	32,768	2, 4 또는 6	ml.p5.48xlarge	GPU H100
직접 선호 최적화(LoRA)	32,768	2, 4 또는 6	ml.p5.48xlarge	GPU H100

미세 조정
모델	시퀀스 길이	노드 수	Instance	액셀러레이터
지도 미세 조정(LoRA)	65,536	2	ml.p5.48xlarge	GPU H100
지도 미세 조정(Full)	65,536	2	ml.p5.48xlarge	GPU H100
지도 미세 조정(LoRA)	32,768	4	ml.p5.48xlarge	GPU H100
지도 미세 조정(Full)	65,536	4	ml.p5.48xlarge	GPU H100
지도 미세 조정(LoRA)	65,536	6	ml.p5.48xlarge	GPU H100
지도 미세 조정(Full)	65,536	6	ml.p5.48xlarge	GPU H100

증류
모델	노드	Instance
훈련 후 모델 증류	1	ml.r5.24xlarge

평가
모델	시퀀스 길이	노드	Instance	액셀러레이터
일반 텍스트 벤치마크 레시피	8,192	1	ml.p5.48xlarge	GPU H100
사용자 제공 데이터세트(gen_qa) 벤치마크 레시피	8,192	1	ml.p5.48xlarge	GPU H100
평가형 Amazon Nova LLM 레시피	8,192	1	ml.p5.48xlarge	GPU H100
표준 텍스트 벤치마크	8,192	1	ml.p5.48xlarge	GPU H100
사용자 지정 데이터세트 평가	8,192	1	ml.p5.48xlarge	GPU H100
멀티모달 벤치마크	8,192	1	ml.p5.48xlarge	GPU H100

근접 정책 최적화
모델	비평가 모델 인스턴스 수	보상 모델 인스턴스 수	앵커 모델 인스턴스 수	액터 훈련	액터 생성	인스턴스 개수	실행당 총 시간	P5 시간	인스턴스 유형
Amazon Nova Micro	1	1	1	2	2	7	8	56	ml.p5.48xlarge
Amazon Nova Lite	1	1	1	2	2	7	16	112	ml.p5.48xlarge
Amazon Nova Pro	1	1	1	6	2	11	26	260	ml.p5.48xlarge

주제

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

평가

RIG를 포함하는 HyperPod EKS 클러스터 생성