Amazon SageMaker HyperPod에서 Amazon Nova 사용자 지정 - Amazon SageMaker AI

Amazon SageMaker HyperPod에서 Amazon Nova 사용자 지정

Amazon Nova 모델은 Amazon Nova 레시피를 사용해 사용자 지정할 수 있으며, 이를 Amazon SageMaker HyperPod에서 훈련시킬 수 있습니다. 레시피는 SageMaker AI가 모델 사용자 지정 작업을 수행하는 방법에 대한 세부 정보를 제공하는 YAML 구성 파일입니다.

Amazon SageMaker HyperPod는 최적화된 GPU 인스턴스와 Amazon FSx for Lustre 스토리지를 통한 고속 연산, TensorBoard 등의 도구와의 통합을 통한 강력한 모니터링, 반복적인 성능 향상을 위한 유연한 체크포인트 관리, Amazon Bedrock으로의 원활한 추론 배포, 효율적이고 확장 가능한 다중 노드 분산 훈련을 통해 고성능 컴퓨팅 환경을 제공합니다. 이 모든 기능이 결합되어 조직이 자신들의 비즈니스 요구 사항에 맞게 Nova 모델을 안전하고 성능이 뛰어나며 유연성을 갖춘 환경에서 맞춤화할 수 있도록 지원합니다.

Amazon SageMaker HyperPod에서 Amazon Nova 모델을 사용자 지정할 경우, 모델 체크포인트를 포함한 모델 아티팩트는 서비스 관리형 Amazon S3 버킷에 저장됩니다. 서비스 관리형 버킷의 아티팩트는 SageMaker 관리형 AWS KMS 키로 암호화됩니다. 현재 서비스 관리형 Amazon S3 버킷은 고객 관리형 KMS 키를 사용한 데이터 암호화를 지원하지 않습니다. 이 체크포인트 저장 위치는 평가 작업 또는 Amazon Bedrock 추론에 활용할 수 있습니다.

컴퓨팅 인스턴스, Amazon S3 스토리지 및 FSx for Lustre에 표준 요금이 적용될 수 있습니다. 요금 세부 정보는 SageMaker HyperPod 요금, Amazon S3 요금FSx for Lustre 요금을 참조하세요.

컴퓨팅 요구 사항

다음 표에는 SageMaker HyperPod 훈련을 위한 컴퓨팅 요구 사항이 요약되어 있습니다.

사전 훈련

모델

시퀀스 길이

노드

Instance

액셀러레이터

Amazon Nova Micro

8,192

8

ml.p5.48xlarge

GPU H100

Amazon Nova Lite

8,192

16

ml.p5.48xlarge

GPU H100

Amazon Nova Pro

8,192

24

ml.p5.48xlarge

GPU H100

직접 선호 최적화(DPO)

모델

시퀀스 길이

노드 수

Instance

액셀러레이터

직접 선호 최적화(Full)

32,768

2, 4 또는 6

ml.p5.48xlarge

GPU H100

직접 선호 최적화(LoRA)

32,768

2, 4 또는 6

ml.p5.48xlarge

GPU H100

미세 조정

모델

시퀀스 길이

노드 수

Instance

액셀러레이터

지도 미세 조정(LoRA)

65,536

2

ml.p5.48xlarge

GPU H100

지도 미세 조정(Full)

65,536

2

ml.p5.48xlarge

GPU H100

지도 미세 조정(LoRA)

32,768

4

ml.p5.48xlarge

GPU H100

지도 미세 조정(Full)

65,536

4

ml.p5.48xlarge

GPU H100

지도 미세 조정(LoRA)

65,536

6

ml.p5.48xlarge

GPU H100

지도 미세 조정(Full)

65,536

6

ml.p5.48xlarge

GPU H100

증류

모델

노드

Instance

훈련 후 모델 증류

1

ml.r5.24xlarge

평가

모델

시퀀스 길이

노드

Instance

액셀러레이터

일반 텍스트 벤치마크 레시피

8,192

1

ml.p5.48xlarge

GPU H100

사용자 제공 데이터세트(gen_qa) 벤치마크 레시피

8,192

1

ml.p5.48xlarge

GPU H100

평가형 Amazon Nova LLM 레시피

8,192

1

ml.p5.48xlarge

GPU H100

표준 텍스트 벤치마크

8,192

1

ml.p5.48xlarge

GPU H100

사용자 지정 데이터세트 평가

8,192

1

ml.p5.48xlarge

GPU H100

멀티모달 벤치마크

8,192

1

ml.p5.48xlarge

GPU H100

근접 정책 최적화

모델

비평가 모델 인스턴스 수

보상 모델 인스턴스 수

앵커 모델 인스턴스 수

액터 훈련

액터 생성

인스턴스 개수

실행당 총 시간

P5 시간

인스턴스 유형

Amazon Nova Micro

1

1

1

2

2

7

8

56

ml.p5.48xlarge

Amazon Nova Lite

1

1

1

2

2

7

16

112

ml.p5.48xlarge

Amazon Nova Pro

1

1

1

6

2

11

26

260

ml.p5.48xlarge