기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon Nova 모델에 대한 보상 함수 설정
보상 함수는 응답 품질을 평가하고 모델 훈련을 위한 피드백 신호를 제공합니다. 사용자 지정 Lambda 함수 또는 Amazon Bedrock 호스팅 파운데이션 모델을 판사로 사용하여 보상 함수를 설정할 수 있습니다. 가이드 템플릿을 사용하면 지침 및 형식 검증과 같은 일반적인 작업에 대한 보상 함수 생성을 간소화할 수 있습니다. 작업 요구 사항에 맞는 접근 방식을 선택합니다.
Verifiable Rewards(RLVR)를 통한 강화 학습
RLVR은 검증 가능한 규칙 기반 그레이더 또는 ready-to-use 가능한 템플릿을 사용하여 코드 생성 또는 수학 추론과 같은 목표 작업에 맞게 모델을 최적화합니다.
RLVR(사용자 지정 코드)에는 두 가지 옵션이 있습니다.
Amazon Bedrock 콘솔은 그레이더 Lambda 함수를 위한 샘플 템플릿을 제공합니다.
-
실측 정보 확인을 통한 수학적 추론
-
형식 검증 및 제약 조건 확인
-
표준 문안 코드가 있는 일반 그레이더 Lambda 템플릿
Amazon Bedrock 콘솔
복잡한 로직, 외부 APIs, 다단계 계산 또는 여러 평가 기준을 결합하기 위해 자체 Lambda ARN을 사용하여 사용자 지정 보상 함수를 생성합니다.
참고
자체 Lambda 함수를 사용하는 경우 다음 사항에 유의하세요.
-
복잡한 평가의 경우 Lambda 제한 시간을 기본 3초에서 최대 15분으로 늘립니다.
-
Lambda 실행 역할에는에 설명된 대로 모델을 호출할 수 있는 권한이 필요합니다Amazon Nova 모델의 액세스 및 보안.
AI 피드백을 통한 강화 학습(RLAIF)
RLAIF는 ready-to-use 수 있는 템플릿이 있는 AI 기반 판단자를 사용하여 지침 준수 또는 챗봇 상호 작용과 같은 주관적 작업에 맞게 모델을 최적화합니다.
RLAIF(판사로서의 모델):
-
Amazon Bedrock 호스팅 기본 모델을 판사로 선택
-
평가를 위한 지침 구성
-
평가 기준 및 점수 평가 지침 정의
Amazon Bedrock 콘솔에서 사용 가능한 LLM-as-Judge 프롬프트 템플릿:
-
다음 지침(판사 모델 훈련)
-
요약(다중 회전 대화 상자)
-
추론 평가(특화된 도메인에 대한 CoT)
-
RAG 충실도(컨텍스트 기반 Q&A)
참고
콘솔의 Model as Judge 옵션은 훈련 중에 구성을 Lambda 함수로 자동 변환합니다.
Lambda 함수 구현 세부 정보
사용자 지정 Lambda 보상 함수를 구현할 때 함수는 다음 형식으로 데이터를 수락하고 반환해야 합니다.
설계 지침
순위 응답 - 가장 좋은 답변에 명확하게 더 높은 점수를 부여합니다.
일관된 검사 사용 - 작업 완료, 형식 준수, 안전 및 적절한 길이 평가
안정적인 조정 유지 - 점수를 정규화하고 확장할 수 없도록 유지