지속적인 사전 훈련 및 중간 훈련 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

지속적인 사전 훈련 및 중간 훈련

참고

구독하면 세부 설명서가 제공됩니다.

Nova Forge CPT는 중간 체크포인트에 대한 액세스 및 Nova의 훈련 전 코퍼스와의 데이터 혼합을 포함하여 표준 CPT 이상의 고급 기능을 제공합니다. 이러한 기능을 사용하면 도메인 적응의 효율성을 높이고 모델의 일반 기능을 더 잘 보존할 수 있습니다.

중간 체크포인트란 무엇이며 왜 필요합니까?

중간 체크포인트는 모델이 최종 프로덕션 준비 상태에 도달하기 전에 사전 훈련의 여러 단계에 저장된 Amazon Nova 모델의 스냅샷입니다. 모델 개발 중에 Amazon Nova는 지속적인 학습률로 초기 사전 훈련, 학습률 축소, 컨텍스트 확장 훈련, 마지막으로 지침 준수 조정 및 안전 훈련 등 여러 훈련 단계를 거칩니다. CPT의 경우 중간 체크포인트가 최종 Prod 체크포인트보다 선호되는 경우가 많습니다. 이는 중간 체크포인트가 더 플라스틱이고 도메인 적응을 수용하기 때문입니다. Prod 체크포인트는 광범위한 지침 준수 조정 및 안전 훈련을 거쳤으며, 이는 일반적인 대화 사용에 맞게 모델을 최적화하지만 CPT 중에 새로운 도메인별 패턴을 학습하는 데 저항할 수 있습니다. 반면 부분 및 전체 사전 훈련된 텍스트 전용 체크포인트는 모델의 사전 훈련 특성을 유지합니다. 특정 동작을 집중적으로 다루지 않아 도메인 적응을 위한 시작점이 더 효율적입니다. 대규모 CPT(>10B 토큰)를 수행할 때 중간 체크포인트부터 시작하면 일반적으로 수렴 속도가 빨라지고 훈련 안정성이 향상되며 도메인 지식 획득의 효율성이 향상됩니다. 그러나 소규모 CPT(<10B 토큰)의 경우 또는 지침 준수 기능을 보존해야 하는 경우 모델의 대화형 기능을 유지하면서 도메인 적응을 허용하므로 Prod 체크포인트가 더 적합할 수 있습니다.

CPT에는 여러 중간 체크포인트가 필요합니다. CPT는 모델이 새로운 도메인 지식을 얼마나 효율적으로 흡수할 수 있는지에 영향을 미치는 다양한 수준의 모델 가소성을 제공하기 때문입니다. 최종 Prod 체크포인트는 광범위한 지침 준수 조정 및 안전 훈련을 거쳤으며, 이를 통해 일반적인 대화용으로 최적화되지만 새로운 도메인별 패턴을 학습하지 못합니다. 즉, 훈련 후를 통해 강화되었습니다. 반면 이전 체크포인트는 모델의 훈련 전 특성을 유지하며 특정 동작으로 크게 조향되지 않아 도메인 적응에 더 적합하고 수용적입니다.

최상의 훈련 효율성을 달성하기 위해 여러 중간 체크포인트가 제공됩니다.

어떤 체크포인트를 사용할 수 있나요?

Nova 1.0

Amazon Nova 1.0 패밀리에는 세 가지 모델(Micro, Lite, Pro)이 있으며 각 모델마다 세 가지 체크포인트를 사용할 수 있습니다.

  • 사전 훈련 - [nova-<micro/lite/pro>/pretraining-text-partial]: 모델이 수조 개의 텍스트 토큰에 대해 훈련되는 Amazon Nova 사전 훈련의 상수 학습 속도 단계 이후의 체크포인트입니다.

  • MID-TRAINED - [nova-<micro/lite/pro>/pretraining-text-full]: 수조 개의 텍스트 토큰이 포함된 Amazon Nova 사전 훈련 및 중간 훈련의 모든 단계가 완료된 후의 텍스트 전용 체크포인트입니다. 모델이 특히 다중 모달 데이터를 볼 수 없어야 하는 경우 이를 사용합니다.

  • MID-TRAINED - [nova-<lite/pro>/pretraining-mm-full]: 다중 모달 데이터를 포함하여 Amazon Nova 사전 훈련 및 중간 훈련의 모든 단계와 수조 개의 토큰이 처리된 후의 체크포인트입니다.

  • POST-TRAINED - [nova-<micro/lite/pro>/prod]: 모든 훈련 전 및 훈련 후 단계를 거친 모델의 완전히 정렬된 최종 체크포인트입니다.

Nova 2.0

Amazon Nova Lite 2.0 체크포인트는 3개입니다.

  • 사전 훈련 - [nova-lite-2/pretraining-text-RD]: 모델이 수조 개의 토큰에 대해 훈련되는 Amazon Nova 사전 훈련의 일정한 학습률 및 램프 다운 단계 이후의 체크포인트입니다.

  • MID-TRAINED - [nova-lite-2/pretraining-text-CE]:이 체크포인트를 사용하면 사전 훈련보다 더 보수적인 학습률로 중간 볼륨의 비정형 데이터를 도입하여 치명적인 잊어버리기를 방지하면서 도메인별 지식을 흡수할 수 있습니다.

  • 훈련 후 - [nova-lite-2/prod]: 모든 관련 및 훈련 후 단계를 거친 모델의 완전히 정렬된 최종 체크포인트입니다.

다음 표에서는 훈련 전 및 훈련 중 다양한 조건에 대해 자세히 설명합니다.

데이터 형식

수행

체크포인트 사용

대규모 비정형 원시 도메인 데이터(문서, 로그, 문서, 코드 등)

지속적인 사전 훈련

사전 훈련

대규모 비정형 원시 도메인 데이터(문서, 로그, 문서, 코드 등)

중 훈련

사전 훈련

더 작은 양의 비정형 원시 데이터. 구조화된 추론 트레이스/CoT 데이터

중 훈련

훈련 중

구조화된 데모(고품질 입력-출력 페어, 선별된 작업 지침, 멀티턴 대화)

전체 미세 조정

훈련 중

구조화된 데모(고품질 입력-출력 페어, 선별된 작업 지침, 멀티턴 대화)

파라미터 효율성 미세 조정

훈련 후

사용할 체크포인트는 무엇입니까?

부분적으로 사전 훈련된 텍스트 전용 및 완전히 사전 훈련된 텍스트 전용 체크포인트는 일반적으로 더 빠르게 수렴되며 도메인 적응을 위한 훈련 단계가 더 적게 필요합니다. 그러나 지침 튜닝이 없으며 유용한 작업을 수행하고 지침을 따르려면 훈련 후 단계를 거쳐야 합니다. GA 체크포인트는 조정하는 데 더 많은 단계가 필요하지만 소규모 실험을 위한 더 안전한 시작점을 제공하며 CPT 훈련 후에도 훈련 후 일부 기능을 유지합니다.

일반적으로 대규모 훈련 데이터 세트(>10B 토큰)를 사용하면 모델의 지식 기반이 크게 수정되므로 부분적으로 사전 훈련된 텍스트만 또는 완전히 사전 훈련된 텍스트만 체크포인트에서 시작하여 보다 효율적이고 안정적인 훈련을 수행할 수 있습니다. 작은 데이터 세트(<10B 토큰)에서는 GA 체크포인트를 사용하여 도메인에 적응하면서 지침 준수 기능을 유지합니다.

1.0 또는 2.0 모델에 데이터 믹싱을 사용하려면 어떻게 해야 하나요?

새 도메인 데이터로 CPT를 수행할 때는 새 데이터를 모델의 훈련 전 단계에서 이전에 사용한 일부 데이터와 혼합하는 것이 매우 유용합니다. 이전 데이터를 새 도메인 데이터와 혼합하면 다음 두 가지 문제가 해결됩니다.

  • 제어 잊기: 모델에 대한 기존 기술과 지식을 보존하여 치명적인 잊기를 방지합니다. 데이터 혼합이 없으면 좁은 도메인 데이터에 대해서만 훈련하면 모델이 일반 기능을 덮어씁니다. 예를 들어, 법률 문서에 대해서만 훈련된 모델은 코딩하거나 수학을 수행할 수 있는 능력을 잃을 수 있습니다. 일반 도메인 데이터 세트를 혼합하면 새 도메인을 획득하는 동안 이러한 일반 기술을 유지할 수 있습니다.

  • 최적화 안정성: 모델의 내부 표현을 고정하여 훈련 안정성을 유지합니다. CPT 중에 모델의 학습된 기능이 수정되고 데이터 믹싱은 이러한 조정을 원활하게 안내하는 다양한 소스의 그라데이션을 제공합니다. 그렇지 않으면 좁은 분포에 대한 훈련으로 인해 그라데이션 불안정이 발생할 수 있습니다.이 경우 모델의 표현이 너무 크게 이동하여 훈련 분산, 손실 스파이크 또는 기존 기능의 축소가 발생할 수 있습니다. 이는 안정성-가변성 장단점입니다. 모델은 새로운 도메인 지식을 학습할 수 있을 만큼 충분히 플라스틱이어야 하지만 이미 알고 있는 내용을 깨뜨리지 않을 만큼 충분히 안정적이어야 합니다.

Nova CPT 데이터 혼합 기능

Amazon Nova 훈련 전 데이터 및 체크포인트에 대한 액세스는 Amazon Nova CPT 사용자 지정의 핵심 서비스 중 하나입니다. Amazon Nova CPT 사용자 지정을 사용하면 도메인 데이터를 Amazon Nova의 훈련 전 코퍼스와 쉽게 혼합할 수 있습니다. 또한 특정 Amazon Nova 데이터 범주(예: 코드, 수학, 추론 등)의 샘플링 비율을 변경하고 도메인 데이터를 보완하도록 비율을 제어할 수 있습니다. 이를 통해 모델을 특정 도메인에 맞게 조정하면서 사용 사례에 맞는 기능을 강화할 수 있습니다.

최적의 혼합 비율 찾기

Amazon Nova 데이터와 도메인 데이터의 최적 비율은 데이터세트의 도메인, 복잡성, 크기, 품질 및 일반적인 기능 유지의 중요성에 따라 달라집니다. 이 비율은 실험을 통해 검색해야 합니다. 혼합할 Amazon Nova 데이터의 양을 결정하는 실험 프레임워크는 다음과 같습니다.

도메인 데이터의 대표적인 하위 집합(예: 5B 토큰)을 선택하고 모든 실험 실행에서 이를 일정하게 유지합니다.

혼합된 Amazon Nova 데이터의 양만 가변하는 소규모 CPT 실험을 실행합니다.

  • 혼합 없음: 100% 도메인 → 5B 도메인만(총 5B)

  • 조명 혼합: 90% 도메인 → 5B 도메인 + ~0.56B Amazon Nova(총 ~5.56B)

  • 중간 혼합: 70% 도메인 → 5B 도메인 + ~2.14B Amazon Nova(총 ~7.14B)

  • 헤비 믹싱: 50% 도메인 → 5B 도메인 + 5B Amazon Nova(총 10B)

도메인 및 일반 도메인 벤치마크에서의 각 체크포인트를 평가합니다. 또한 시작 체크포인트(훈련 전 Amazon Nova 체크포인트)를 평가합니다.

  • 고객 도메인 성능은 실행 간에 거의 일정하게 유지되나요? 각 실행에서 동일한 수의 도메인 토큰이 보였기 때문에 일반적으로 그래야 합니다. 혼합이 많을수록 도메인 성능이 향상되면 Amazon Nova 데이터는 유용한 정규화를 제공합니다.

  • 혼합이 증가하면 일반 벤치마크 점수가 개선되나요?

    • Amazon Nova 데이터가 더 추가되면 일반적인 기능이 단조롭게 개선되어야 합니다.

    • MMLU(일반 지식), HumanEval(코딩), GSM8K(수학) 또는 특정 관심 벤치마크 등 여러 일반 벤치마크를 측정합니다.

  • 사용 사례에 적합한 일반 기능을 제공하면서 도메인 성능을 유지하는 혼합 비율을 선택합니다. 더 많은 데이터 혼합을 통한 추가 훈련 비용을 고려합니다.

최적의 혼합 비율이 식별되면 선택한 혼합 비율로 전체 도메인 데이터 세트를 사용하여 전체 규모 CPT를 실행합니다.

제한 사항

현재 CPT는 텍스트 데이터만 지원하며 고객 다중 모달 데이터 세트를 지원하지 않습니다.