기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
지속적 사전 학습(CPT)
지속적인 사전 훈련(CPT)은 파운데이션 모델의 사전 훈련 단계를 확장하여 특정 도메인 또는 코포라의 레이블이 지정되지 않은 추가 텍스트에 노출하는 훈련 기법입니다. 레이블이 지정된 입력-출력 페어가 필요한 지도 미세 조정과 달리 CPT는 원시 문서를 교육하여 모델이 새 도메인에 대한 심층적인 지식을 얻고, 도메인별 용어 및 쓰기 패턴을 학습하고, 특정 콘텐츠 유형 또는 주제 영역에 적응할 수 있도록 지원합니다.
이 접근 방식은 법률 문서, 의학 문헌, 기술 문서 또는 독점 비즈니스 콘텐츠와 같은 도메인별 텍스트 데이터가 대량(수백억 개의 토큰)이고 모델이 해당 도메인에서 네이티브 유창성을 개발하기를 원하는 경우에 특히 유용합니다. 일반적으로 CPT 단계 후에는 모델이 새로 획득한 지식을 사용하고 유용한 작업을 완료할 수 있도록 추가 명령 튜닝 단계를 거쳐야 합니다.
지원되는 모델
CPT는 다음 Amazon Nova 모델에 사용할 수 있습니다.
-
Nova 1.0(Micro, Lite, Pro)
-
Nova 2.0(Lite)
Nova 1.0과 Nova 2.0을 사용하는 경우
Amazon Nova 모델 제품군은 정확도, 속도 및 비용 간에 최적화할 수 있는 여러 가격 대비 성능 운영 지점을 제공합니다.
다음이 필요한 경우 Nova 2.0을 선택합니다.
-
복잡한 분석 작업을 위한 고급 추론 기능
-
코딩, 수학 및 과학적 문제 해결에 대한 우수한 성능
-
더 긴 컨텍스트 길이 지원
-
다국어 성능 향상
다음이 적용되는 경우 Nova 1.0을 선택합니다.
-
사용 사례에는 고급 추론 없이 표준 언어 이해가 필요합니다.
-
훈련 및 추론 비용을 낮추도록 최적화하려고 합니다.
-
복잡한 추론 작업이 아닌 모델 도메인별 지식과 행동을 교육하는 데 중점을 둡니다.
-
이미 Nova 1.0에서 성능을 검증했으며 추가 기능이 필요하지 않습니다.
참고
더 큰 모델이 항상 더 나은 것은 아닙니다. Nova 1.0과 Nova 2.0 모델 중에서 선택할 때 비용 대비 성능 장단점과 특정 비즈니스 요구 사항을 고려합니다.