기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
보상 함수 설정
보상 함수는 응답 품질을 평가하고 모델 훈련을 위한 피드백 신호를 제공합니다. 작업 요구 사항에 맞는 접근 방식을 선택합니다.
Verifiable Rewards(RLVR)를 통한 강화 학습
RLVR을 사용하면 코드 생성 또는 수학 추론과 같은 목표 작업에 맞게 모델을 최적화할 수 있습니다. 검증 가능한 규칙 기반 그레이더를 사용하여 보상 함수를 정의하거나 형식 확인, 요약, 텍스트 유사성과 같은 일반적인 사용 사례에 ready-to-use 수 있는 템플릿을 사용할 수 있습니다.
RLVR(사용자 지정 코드)에는 두 가지 옵션이 있습니다.
-
콘솔 제공 템플릿 사용 - Amazon Bedrock 콘솔은 그레이더 Lambda 함수에 대한 샘플 템플릿을 제공합니다.
-
실측 정보 확인을 통한 수학적 추론
-
형식 검증 및 제약 조건 확인
-
그레이더 Lambda 함수에 대한 표준 문안 코드가 있는 일반 그레이더 Lambda 템플릿
Lambda 함수를 설정하기 전에 Amazon Bedrock 콘솔
의 RFT 작업 생성 페이지에 있는 제공된 템플릿의 지침을 따릅니다. -
-
자체 Lambda 함수 가져오기 - 자체 Lambda ARN을 사용하여 Lambda 함수를 통해 실행되는 사용자 지정 보상 함수를 생성합니다. 여러 그레이더를 결합하여 단일 점수를 생성할 수 있습니다.
AI 피드백을 통한 강화 학습(RLAIF)
RLAIF를 사용하면 지침 준수 또는 챗봇 상호 작용과 같은 주관적 작업을 최적화할 수 있습니다. 일반적인 사용 사례에 바로 ready-to-use 수 있는 템플릿과 함께 AI 기반 판단자를 사용하여 정의한 기준에 따라 응답 품질을 평가할 수 있습니다.
RLAIF(판사로서의 모델):
-
Amazon Bedrock 호스팅 기본 모델을 판사로 선택
-
평가를 위한 지침 구성
-
평가 기준 및 점수 평가 지침 정의
Amazon Bedrock 콘솔에 제공된 LLM-as-Judge 프롬프트 템플릿을 사용할 수 있습니다.
-
다음 지침(판사 모델 훈련)
-
요약(다중 회전 대화 상자)
-
추론 평가(특화된 도메인에 대한 CoT)
-
RAG 충실도(컨텍스트 기반 Q&A)
참고
-
콘솔의 모델을 Judge 옵션으로 사용하면 Amazon Bedrock은 구성을 훈련 중에 실행되는 Lambda 함수로 자동 변환합니다.
-
자체 Lambda 함수를 가져오는 경우 Lambda 실행 역할에는에 설명된 대로 모델 ID 또는 추론 프로파일을 사용하여 모델을 호출하는 데 필요한 권한이 필요합니다RLAIF에 대한 상위 Lambda 함수 권한.