SageMaker AI 학습 작업
Amazon SageMaker Training Jobs을 사용하여 Amazon Nova 모델을 사용자 지정하는 과정은 대규모 언어 모델 미세 조정을 단순화하도록 설계된 구조화된 워크플로를 따릅니다. 이 엔드 투 엔드 워크플로는 모델 훈련, 평가, 추론 배포까지 포함합니다. 자세한 내용은 Amazon SageMaker AI 개발자 안내서의 Amazon Nova 모델 사용자 지정을 참조하세요.
Amazon SageMaker AI를 사용하면, 자체 모델을 처음부터 학습하지 않고도 기존 사전 학습된 파운데이션 모델(예: Amazon Nova)을 미세 조정할 수 있습니다. 다음 섹션에서는 Amazon Nova 파운데이션 모델을 사용할 때 SageMaker AI에서 제공하는 미세 조정 옵션을 설명합니다.
전체 순위 미세 조정
전체 순위 미세 조정은 특정 작업이나 도메인에서 모델 성능을 최적화하기 위해 모든 파운데이션 모델 파라미터를 수정합니다. 이 포괄적인 접근 방식은 어댑터 기반 방법보다 모델 아키텍터 전체를 깊이 있게 조정할 수 있습니다. 자세한 내용은 파운데이션 모델 미세 조정을 참조하세요.
전체 순위 미세 조정의 작동 방식
전체 순위 미세 조정 중에 모델은 학습 데이터를 사용해 모든 파라미터를 업데이트하며 학습합니다. 전체 순위 미세 조정 과정의 특징은 다음과 같습니다.
-
모델이 특정 도메인에 맞춘 전문화된 지식을 개발할 수 있습니다.
-
모델의 기저 표현에 대한 중요한 변화가 가능해집니다.
-
어댑터 기반 방법보다 더 많은 연산 자원을 필요로 하지만, 특정 작업에 대한 성능 향상을 달성할 수 있습니다.
전체 순위 미세 조정을 선택해야 하는 경우
다음과 같은 시나리오에서 전체 순위 미세 조정 사용을 권장합니다.
-
LoRA PEFT 미세 조정만으로 원하는 성능 수준을 달성하지 못한 경우
-
의료, 법률, 기술 분야와 같이 깊은 전문 지식이 요구되는 특수 도메인의 경우
-
사용 사례에 맞는 대규모, 고품질 데이터세트를 보유한 경우
-
정확도 요구 사항이 연산 비용보다 우선인 경우
-
기본 모델 동작에서 크게 벗어난 동작이 필요한 애플리케이션의 경우
저순위 어댑터 미세 조정
기본 모델 성능을 향상시키는 가장 효과적이고 비용 효율적인 방법은 저순위 어댑터 파라미터 효율적 미세 조정(LoRA PEFT)입니다. LoRA PEFT의 기본 원리는 새로운 작업이나 도메인에 적응하기 위해 소수의 추가 가중치만 업데이트하면 충분하다는 것입니다.
LoRA PEFT는 특정 모델 계층에 저순위 학습 가능 가중치 행렬을 도입하여 학습 가능한 파라미터 수를 줄이면서 모델 품질을 유지합니다. LoRA PEFT 어댑터는 경량 어댑터 계층을 추가하여 추론 중 모델의 가중치를 수정하면서도 원래 모델 파라미터는 그대로 유지합니다. 이 접근 방식은 가장 비용 효율적인 미세 조정 기법 중 하나로도 간주됩니다. 자세한 내용은 어댑터 추론 구성 요소를 사용한 모델 미세 조정을 참조하세요.
LoRA PEFT를 선택해야 하는 경우
다음과 같은 시나리오에서 LoRA PEFT 사용을 권장합니다.
-
일반적으로 다른 미세 조정 방법보다 LoRA PEFT로 시작하는 것이 권장됩니다. 그 이유는 학습 과정이 빠르기 때문입니다.
-
LoRA PEFT는 기본 모델 성능이 이미 충분한 경우에 특히 효과적입니다. 이 경우 LoRA PEFT의 목표는 텍스트 요약이나 언어 번역 등 여러 관련 작업에서 모델의 역량을 향상시키는 것입니다. 또한 LoRA PEFT의 정규화 특성은 과적합을 방지하고, 모델이 원본 도메인을 잊는 문제를 완화하는 데 도움을 줍니다. 이를 통해 모델이 다양한 응용 분야에서 유연하고 적응 가능하게 됩니다.
-
LoRA PEFT는 비교적 작은 데이터세트를 사용하는 명령어 미세 조정 시나리오에 활용할 수 있습니다. LoRA PEFT는 더 광범위하고 큰 데이터세트보다 작고 특정 작업에 맞춘 데이터세트에서 더 우수한 성능을 발휘합니다.
-
Amazon Bedrock 사용자 지정 데이터 한도를 초과하는 대규모 레이블 지정 데이터세트의 경우에는 SageMaker AI에서 LoRA PEFT를 사용하여 더 나은 결과를 얻을 수 있습니다.
-
이미 Amazon Bedrock 미세 조정을 통해 유망한 결과를 얻은 경우에는 SageMaker AI에서 LoRA PEFT를 활용하여 모델 하이퍼파라미터를 추가 최적화할 수 있습니다.
직접 선호 최적화
직접 선호 최적화(DPO)는 파운데이션 모델을 위한 효율적인 미세 조정 방법으로, 쌍 비교 데이터를 사용하여 모델 출력을 인간의 선호도에 맞추도록 조정합니다. 이 접근 방식은 어떤 응답이 더 바람직한지에 대한 인간 피드백을 기반으로 모델 동작을 직접 최적화합니다.
DPO의 중요성
대규모 데이터로 학습된 파운데이션 모델은 사실상 정확한 출력을 생성할 수 있지만, 특정 사용자 요구, 조직의 가치, 안전 요구 사항과 일치하지 않을 수 있습니다. DPO는 다음과 같은 기능을 제공하여 이러한 격차를 해소합니다.
-
원하는 동작 패턴에 맞게 모델 미세 조정
-
원치 않는 출력이나 유해한 응답 감소
-
브랜드 톤과 커뮤니케이션 가이드라인에 맞춘 응답 정렬
-
도메인 전문가 피드백을 기반으로 한 응답 품질 향상
DPO의 작동 방식
DPO는 두 가지 가능한 응답 중 어느 것이 선호되는지 인간 평가자가 표시한 쌍 예제를 사용합니다. 모델은 선호되는 응답을 생성할 가능성을 최대화하고 원치 않는 응답 가능성은 최소화하도록 학습합니다. DPO는 다음 두 가지 기술 중 하나로 구현할 수 있습니다.
-
전체 순위 DPO: 선호 응답을 최적화하기 위해 모든 모델 파라미터를 업데이트
-
LoRA 기반 DPO: 경량 어댑터를 사용해 선호도 정렬을 학습하며, 연산 자원 소모가 적음
DPO를 선택해야 하는 경우
다음과 같은 시나리오에서 DPO 사용을 권장합니다.
-
특정 인간 선호도에 맞춘 주관적 출력 최적화
-
모델의 톤, 스타일, 콘텐츠 특성을 원하는 응답 패턴에 맞게 조정
-
사용자 피드백 및 오류 분석을 기반으로 기존 모델 개선
-
다양한 사용 사례에서 일관된 출력 품질 유지
-
선호 응답 패턴을 통해 안전 가드레일 구현
-
보상 없는 강화 학습 수행
-
등급화 또는 레이블링 데이터 없이 선호 데이터만 활용
-
유용함, 무해함, 정직함 등 세밀한 정렬 과제에서 모델 개선
DPO는 원하는 출력과 원치 않는 출력을 명확히 보여주는 정교하게 선별된 선호 데이터세트를 활용하여 모델 동작을 반복적으로 개선하는 데 효과적입니다. 이 방법은 전체 순위 방식과 LoRA 기반 방식을 모두 지원하는 유연성을 제공하므로, 가용한 연산 자원과 특정 요구 사항에 따라 가장 적합한 구현 방식을 선택할 수 있습니다.
증류
모델 증류는 대규모 고급 모델의 지식을 더 작고 효율적인 모델로 전이하는 방법입니다. Amazon Nova 모델의 경우, 대형 '교사' 모델(예: Amazon Nova Pro 또는 Amazon Nova Premier)이 가진 능력을 소형 '학생' 모델(예: Amazon Nova Lite 또는 Amazon Nova Micro)에 전달합니다. 이를 통해 적은 자원으로도 높은 성능을 유지하는 사용자 지정 모델을 생성할 수 있습니다.
SageMaker AI 학습 작업을 활용하여 이 작업을 완료하는 자세한 방법은 Amazon Nova 증류를 참조하세요.