Verifiable Rewards(RLVR)를 통한 강화 학습 AI 피드백을 통한 강화 학습(RLAIF)Lambda 함수 구현 세부 정보

Amazon Nova 모델에 대한 보상 함수 설정

보상 함수는 응답 품질을 평가하고 모델 훈련을 위한 피드백 신호를 제공합니다. 사용자 지정 Lambda 함수 또는 Amazon Bedrock 호스팅 파운데이션 모델을 판사로 사용하여 보상 함수를 설정할 수 있습니다. 안내 템플릿은 지침 준수 및 형식 검증과 같은 일반적인 작업에 대한 보상 함수 생성을 간소화하는 데 사용할 수 있습니다. 작업 요구 사항에 맞는 접근 방식을 선택합니다.

Verifiable Rewards(RLVR)를 통한 강화 학습

RLVR은 검증 가능한 규칙 기반 그레이더 또는 ready-to-use 가능한 템플릿을 사용하여 코드 생성 또는 수학 추론과 같은 목표 작업에 맞게 모델을 최적화합니다.

RLVR(사용자 지정 코드)에는 두 가지 옵션이 있습니다.

Amazon Bedrock 콘솔은 그레이더 Lambda 함수를 위한 샘플 템플릿을 제공합니다.

실측 정보 확인을 통한 수학적 추론
형식 검증 및 제약 조건 확인
표준 문안 코드가 있는 일반 그라데이션 Lambda 템플릿

Amazon Bedrock 콘솔의 RFT 작업 생성 페이지에 제공된 템플릿의 지침을 따릅니다.

복잡한 로직, 외부 APIs, 다단계 계산 또는 여러 평가 기준을 결합하기 위해 자체 Lambda ARN을 사용하여 사용자 지정 보상 함수를 생성합니다.

참고

자체 Lambda 함수를 사용하는 경우 다음 사항에 유의하세요.

복잡한 평가의 경우 Lambda 제한 시간을 기본 3초에서 최대 15분으로 늘립니다.
Lambda 실행 역할에는에 설명된 대로 모델을 호출할 수 있는 권한이 필요합니다Amazon Nova 모델의 액세스 및 보안.

AI 피드백을 통한 강화 학습(RLAIF)

RLAIF는 ready-to-use 수 있는 템플릿이 있는 AI 기반 판단자를 사용하여 지침 준수 또는 챗봇 상호 작용과 같은 주관적 작업에 맞게 모델을 최적화합니다.

RLAIF(판사로서의 모델):

Amazon Bedrock 호스팅 기본 모델을 판사로 선택
평가를 위한 지침 구성
평가 기준 및 점수 평가 지침 정의

Amazon Bedrock 콘솔에서 사용 가능한 LLM-as-Judge 프롬프트 템플릿:

다음 지침(판사 모델 훈련)
요약(다중 회전 대화 상자)
추론 평가(특화된 도메인에 대한 CoT)
RAG 충실도(컨텍스트 기반 Q&A)

참고

콘솔의 Model as Judge 옵션은 훈련 중에 구성을 Lambda 함수로 자동 변환합니다.

Lambda 함수 구현 세부 정보

사용자 지정 Lambda 보상 함수를 구현할 때 함수는 다음 형식으로 데이터를 수락하고 반환해야 합니다.

설계 지침

순위 응답 - 가장 좋은 답변에 명확하게 더 높은 점수를 부여합니다.
일관된 검사 사용 - 작업 완료, 형식 준수, 안전 및 적절한 길이 평가
안정적인 조정 유지 - 점수를 정규화하고 확장할 수 없도록 유지

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

데이터 준비

미세 조정 작업 생성