기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
강화 미세 조정을 위한 훈련 데이터 및 보상 함수 준비
강화 미세 조정 작업을 생성하려면 응답 품질을 평가하는 훈련 데이터와 보상 함수가 필요합니다. 입력-출력 페어가 필요한 기존 미세 조정과 달리 RFT는 프롬프트와 보상 신호를 사용하여 모델 학습을 안내합니다.
기존 Amazon Bedrock API 호출 로그를 훈련 데이터로 사용하거나 새 데이터 세트를 업로드할 수 있습니다. 보상 함수는 좋은 응답을 만드는 요소를 정의하고 규칙 기반 확인(RLVR) 또는 AI 기반 판단(RLAIF)을 사용할 수 있습니다.
중요
모델을 강화 미세 조정하기 위해 Amazon Bedrock에 최대 20K000개의 프롬프트를 제공할 수 있습니다.