SageMaker HyperPod에서 강화 미세 조정(RFT)

강화 미세 조정은 정확히 올바른 답변으로 직접 감독하는 대신 응답 품질을 나타내는 피드백 신호(측정 가능한 점수 또는 보상)를 통해 모델 성능을 개선하는 기계 학습 기법입니다. 입력과 출력 페어로부터 학습하는 기존의 지도 미세 조정과 달리, RFT는 보상 함수를 사용하여 모델 응답을 평가하고 반복적으로 모델을 최적화하여 이러한 보상을 극대화합니다.

이 접근 방식은 정확히 올바른 출력을 정의하기 어려운 태스크에 특별히 효과적이지만 신뢰할 수 있는 방식으로 응답 품질을 측정할 수 있습니다. RFT를 사용하면 모델이 시험과 피드백을 통해 복잡한 행동과 선호도를 학습할 수 있으므로, 세심한 의사 결정, 창의적인 문제 해결 또는 프로그래밍 방식으로 평가할 수 있는 특정 품질 기준 준수가 필요한 애플리케이션에 적합합니다.

RFT는 사용하는 경우

명확하고 측정 가능한 성공 기준을 정의할 수 있지만 훈련에 정확히 올바른 출력을 제공하는 데 어려움을 겪는 경우 RFT를 사용합니다. 여러 개의 유효한 솔루션이 존재하지만 일부가 다른 솔루션보다 분명히 더 좋은, 창의적 쓰기, 코드 최적화 또는 복잡한 추론과 같이 품질이 주관적이거나 다면적인 작업에 적합합니다.

RFT는 다음과 같은 경우에 가장 잘 작동합니다.

프로그래밍 방식으로 모델 출력을 평가할 수 있는 신뢰할 수 있는 보상 함수가 있는 경우
모델 동작을 특정 기본 설정 또는 제약 조건에 맞게 조정해야 하는 경우
레이블이 지정된 고품질 예제를 수집하는 데 비용이 많이 들거나 이 방법이 실용적이지 않기 때문에 기존의 지도 미세 조정이 부족한 상황

반복된 개선, 개인화 또는 보상 신호로 인코딩될 수 있는 복잡한 비즈니스 규칙 준수가 필요한 애플리케이션의 경우 RFT를 고려합니다.

RFT가 가장 적합한 작업

RFT는 출력 품질을 객관적으로 측정할 수 있지만 최적의 응답을 미리 정의하기 어려운 도메인에서 뛰어납니다.

수학적 문제 해결: 여러 솔루션 경로로 확인 가능한 정확성
코드 생성 및 최적화: 테스트 가능한 실행 결과 및 성능 지표
과학적 추론 작업: 논리적 일관성 및 사실적 정확도
정형 데이터 분석: 프로그래밍 방식으로 확인 가능한 출력
여러 단계의 추론: 단계별 논리적 진행이 필요한 태스크
도구 사용 및 API 직접 호출: 실행 결과로 측정 가능한 성공
복잡한 워크플로: 특정 제약 조건 및 비즈니스 규칙 준수

RFT는 정확도, 효율성, 스타일과 같은 여러 경쟁 목표의 균형을 맞춰야 할 때 매우 효과적입니다.

RFT 훈련에 추론 모드를 사용해야 하는 경우

Amazon Nova 2.0은 RFT 훈련 중에 추론 모드를 지원합니다. 다음 모드를 사용할 수 있습니다.

none: 추론 없음(reasoning_effort 필드 생략)
low: 최소한의 추론 오버헤드
high: 최대 추론 기능(reasoning_effort를 지정할 때 기본값)

참고

RFT에는 중간 옵션이 없습니다. 구성에 reasoning_effort 필드가 없으면 추론이 비활성화됩니다.

다음과 같은 경우 높은 수준의 추론을 사용합니다.

복잡한 분석 태스크
수학적 문제 해결
여러 단계의 논리적 연역
단계별 사고가 가치를 더하는 태스크

다음과 같은 경우에 none(reasoning_effort) 또는 낮은 수준의 추론을 사용합니다.

단순한 사실적 쿼리
직접 분류
속도 및 비용 최적화
간단한 질문과 답변

중요

더 높은 추론 모드일수록 훈련 시간과 비용, 추론 지연 시간 및 비용이 증가하지만 복잡한 추론 태스크에 대한 모델 기능도 증가합니다.

지원되는 모델

SageMaker HyperPod에서 RFT는 Amazon Nova Lite 2.0(amazon.nova-2-lite-v1:0:256k)을 지원합니다.

주요 단계

RFT 프로세스에는 다음과 같은 4개의 주요 단계가 포함됩니다.

평가자 구현: 보상 함수를 생성하여 품질 기준을 기반으로 모델 응답 점수를 프로그래밍 방식으로 매깁니다.
프롬프트 업로드: 평가를 위해 참조 데이터와 함께 지정된 대화형 형식으로 훈련 데이터를 준비하고 업로드합니다.
작업 시작: 구성된 파라미터를 사용하여 강화 미세 조정 프로세스를 시작합니다.
모니터링: 지표 대시보드를 통해 훈련 진행 상황을 추적하여 모델이 효과적으로 학습되도록 보장합니다.

각 단계는 이전 단계를 기반으로 빌드되며, 평가자는 일관된 피드백 신호를 제공하여 전체 훈련 프로세스를 안내하는 파운데이션 역할을 합니다.

주제

Nova 2.0에서 SFT

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

Nova 2.0에서 SFT