

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# Amazon Nova 모델에 대한 보상 함수 설정
<a name="reward-functions"></a>

보상 함수는 응답 품질을 평가하고 모델 훈련을 위한 피드백 신호를 제공합니다. 사용자 지정 Lambda 함수 또는 Amazon Bedrock 호스팅 파운데이션 모델을 판사로 사용하여 보상 함수를 설정할 수 있습니다. 가이드 템플릿을 사용하면 지침 및 형식 검증과 같은 일반적인 작업에 대한 보상 함수 생성을 간소화할 수 있습니다. 작업 요구 사항에 맞는 접근 방식을 선택합니다.

## Verifiable Rewards(RLVR)를 통한 강화 학습
<a name="rft-rlvr"></a>

RLVR은 검증 가능한 규칙 기반 그레이더 또는 ready-to-use 가능한 템플릿을 사용하여 코드 생성 또는 수학 추론과 같은 목표 작업에 맞게 모델을 최적화합니다.

RLVR(사용자 지정 코드)에는 두 가지 옵션이 있습니다.

### 옵션 1: 콘솔 제공 템플릿 사용
<a name="w2aac15c25c17c17b5b7b1"></a>

Amazon Bedrock 콘솔은 그레이더 Lambda 함수를 위한 샘플 템플릿을 제공합니다.
+ 실측 정보 확인을 통한 수학적 추론
+ 형식 검증 및 제약 조건 확인
+ 표준 문안 코드가 있는 일반 그레이더 Lambda 템플릿

[Amazon Bedrock 콘솔](https://console.aws.amazon.com/bedrock)의 **RFT 작업 생성** 페이지에 제공된 템플릿의 지침을 따릅니다.

### 옵션 2: 자체 Lambda 함수 가져오기
<a name="w2aac15c25c17c17b5b7b3"></a>

복잡한 로직, 외부 APIs, 다단계 계산 또는 여러 평가 기준을 결합하기 위해 자체 Lambda ARN을 사용하여 사용자 지정 보상 함수를 생성합니다.

**참고**  
자체 Lambda 함수를 사용하는 경우 다음 사항에 유의하세요.  
복잡한 평가의 경우 Lambda 제한 시간을 기본 3초에서 최대 15분으로 늘립니다.
Lambda 실행 역할에는에 설명된 대로 모델을 호출할 수 있는 권한이 필요합니다[Amazon Nova 모델의 액세스 및 보안](rft-access-security.md).

## AI 피드백을 통한 강화 학습(RLAIF)
<a name="rft-rlaif"></a>

RLAIF는 ready-to-use 수 있는 템플릿이 있는 AI 기반 판단자를 사용하여 지침 준수 또는 챗봇 상호 작용과 같은 주관적 작업에 맞게 모델을 최적화합니다.

**RLAIF(판사로서의 모델):**
+ Amazon Bedrock 호스팅 기본 모델을 판사로 선택
+ 평가를 위한 지침 구성
+ 평가 기준 및 점수 평가 지침 정의

Amazon Bedrock 콘솔에서 사용 가능한 LLM-as-Judge 프롬프트 템플릿:
+ 다음 지침(판사 모델 훈련)
+ 요약(다중 회전 대화 상자)
+ 추론 평가(특화된 도메인에 대한 CoT)
+ RAG 충실도(컨텍스트 기반 Q&A)

**참고**  
콘솔의 Model **as Judge** 옵션은 훈련 중에 구성을 Lambda 함수로 자동 변환합니다.

## Lambda 함수 구현 세부 정보
<a name="rft-lambda-implementation"></a>

사용자 지정 Lambda 보상 함수를 구현할 때 함수는 다음 형식으로 데이터를 수락하고 반환해야 합니다.

------
#### [ Input structure ]

```
[{
  "id": "123",
  "messages": [
    {
      "role": "user",
      "content": "Do you have a dedicated security team?"
    },
    {
      "role": "assistant",
      "content": "As an AI developed by Amazon, I don not have a dedicated security team..."
    }
  ],
  "metadata": {
    "reference_answer": {
      "compliant": "No",
      "explanation": "As an AI developed by Company, I do not have a traditional security team..."
    },
    "my_key": "sample-001"
  }
}]
```

------
#### [ Output structure ]

```
[{
  "id": "123",
  "aggregate_reward_score": 0.85,
  "metrics_list": [
    {
      "name": "accuracy",
      "value": 0.9,
      "type": "Reward"
    },
    {
      "name": "policy_compliance",
      "value": 0.8,
      "type": "Metric"
    }
  ]
}]
```

------

**설계 지침**
+ 순위 **응답** - 가장 좋은 답변에 명확하게 더 높은 점수를 부여합니다.
+ **일관된 검사 사용** - 작업 완료, 형식 준수, 안전 및 적절한 길이 평가
+ **안정적인 조정 유지** - 점수를 정규화하고 확장할 수 없도록 유지