

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# RFT 모델 평가
<a name="rft-evaluate-model"></a>

강화 미세 조정 작업이 성공적으로 완료되면 여러 평가 방법을 사용하여 사용자 지정 모델의 성능을 평가할 수 있습니다. Amazon Bedrock은 RFT 모델을 기본 모델과 비교하고 개선 사항을 검증하는 데 도움이 되는 기본 제공 평가 도구를 제공합니다.

**Topics**
+ [평가 방법](#rft-evaluation-methods)
+ [평가를 위한 추론 설정](#rft-setup-inference-evaluation)
+ [평가 모범 사례](#rft-evaluation-best-practices)

## 평가 방법
<a name="rft-evaluation-methods"></a>

Amazon Bedrock은 RFT 모델 성능을 평가하는 여러 가지 방법을 제공합니다.

### 검증 지표
<a name="rft-validation-metrics"></a>

검증 데이터 세트를 업로드하면 훈련 지표에 두 개의 추가 그래프가 표시됩니다.
+ **검증 보상** - 모델이 훈련 예제를 넘어 얼마나 잘 일반화되는지 보여줍니다. 훈련 보상보다 낮은 점수는 정상이며 예상됩니다.
+ **검증 에피소드 길이** - 보이지 않는 검증 데이터에 대한 평균 응답 길이입니다. 훈련 예제와 비교하여 모델이 새 입력에 얼마나 효율적으로 응답하는지 보여줍니다.

### 플레이그라운드에서 테스트
<a name="rft-test-playground"></a>

빠른 임시 평가를 위해 플레이그라운드에서 테스트 기능을 사용합니다. 플레이그라운드에서 테스트 기능을 사용하려면 추론을 설정해야 합니다. 자세한 내용은 [평가를 위한 추론 설정](#rft-setup-inference-evaluation) 단원을 참조하십시오.

이 대화형 도구를 사용하면 다음을 수행할 수 있습니다.
+ RFT 모델을 사용하여 직접 프롬프트 테스트
+ 사용자 지정 모델과 기본 모델 간의 응답을 side-by-side 비교합니다.
+ 실시간으로 응답 품질 개선 평가
+ 다양한 프롬프트로 실험하여 모델 기능 평가

### Bedrock 모델 평가
<a name="rft-model-evaluation"></a>

Amazon Bedrock의 모델 평가를 사용하여 자체 데이터 세트를 사용하여 RFT 모델을 평가합니다. 이를 통해 표준화된 지표 및 벤치마크를 통한 포괄적인 성능 분석을 제공합니다. 다음은 Amazon Bedrock 모델 평가 이점의 몇 가지 예입니다.
+ 사용자 지정 테스트 데이터 세트를 사용한 체계적 평가
+ 양적 성능 비교
+ 일관된 평가를 위한 표준화된 지표
+ 기존 Amazon Bedrock 평가 워크플로와 통합

## 평가를 위한 추론 설정
<a name="rft-setup-inference-evaluation"></a>

RFT 모델을 평가하기 전에 다음 옵션 중 하나를 사용하여 추론을 설정합니다.

### 온디맨드 추론
<a name="rft-on-demand-inference"></a>

유연한 pay-per-use 평가를 위한 사용자 지정 모델 온디맨드 배포를 생성합니다. 이 옵션에는 추론 중에 처리된 토큰 수에 따라 요금이 부과되는 토큰 기반 요금이 포함됩니다.

## 평가 모범 사례
<a name="rft-evaluation-best-practices"></a>
+ **체계적으로 비교** - 항상 동일한 테스트 프롬프트 및 평가 기준을 사용하여 RFT 모델을 기본 모델과 비교합니다.
+ **다양한 테스트 사례 사용** - 실제 사용 사례를 나타내는 다양한 프롬프트 유형 및 시나리오를 포함합니다.
+ **보상 조정 검증** - 모델 개선이 훈련 중에 사용된 보상 함수와 일치하는지 확인합니다.
+ **엣지 케이스 테스트** - 어렵거나 비정상적인 입력에 대한 모델 동작을 평가하여 견고성을 평가합니다.
+ **응답 일관성 모니터링** - 유사한 프롬프트를 사용하여 모델이 여러 실행에서 일관된 품질을 제공하는지 확인합니다.