기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
RFT 모델 평가
강화 미세 조정 작업이 성공적으로 완료되면 여러 평가 방법을 사용하여 사용자 지정 모델의 성능을 평가할 수 있습니다. Amazon Bedrock은 RFT 모델을 기본 모델과 비교하고 개선 사항을 검증하는 데 도움이 되는 기본 제공 평가 도구를 제공합니다.
평가 방법
Amazon Bedrock은 RFT 모델 성능을 평가하는 여러 가지 방법을 제공합니다.
검증 지표
검증 데이터 세트를 업로드하면 훈련 지표에 두 개의 추가 그래프가 표시됩니다.
-
검증 보상 - 모델이 훈련 예제를 넘어 얼마나 잘 일반화되는지 보여줍니다. 훈련 보상보다 낮은 점수는 정상이며 예상됩니다.
-
검증 에피소드 길이 - 보이지 않는 검증 데이터에 대한 평균 응답 길이입니다. 훈련 예제와 비교하여 모델이 새 입력에 얼마나 효율적으로 응답하는지 보여줍니다.
플레이그라운드에서 테스트
빠른 임시 평가를 위해 플레이그라운드에서 테스트 기능을 사용합니다. 플레이그라운드에서 테스트 기능을 사용하려면 추론을 설정해야 합니다. 자세한 내용은 평가를 위한 추론 설정 단원을 참조하십시오.
이 대화형 도구를 사용하면 다음을 수행할 수 있습니다.
-
RFT 모델을 사용하여 직접 프롬프트 테스트
-
사용자 지정 모델과 기본 모델 간의 응답을 side-by-side 비교합니다.
-
실시간으로 응답 품질 개선 평가
-
다양한 프롬프트로 실험하여 모델 기능 평가
Bedrock 모델 평가
Amazon Bedrock의 모델 평가를 사용하여 자체 데이터 세트를 사용하여 RFT 모델을 평가합니다. 이를 통해 표준화된 지표 및 벤치마크를 통한 포괄적인 성능 분석을 제공합니다. 다음은 Amazon Bedrock 모델 평가 이점의 몇 가지 예입니다.
-
사용자 지정 테스트 데이터 세트를 사용한 체계적 평가
-
양적 성능 비교
-
일관된 평가를 위한 표준화된 지표
-
기존 Amazon Bedrock 평가 워크플로와 통합
평가를 위한 추론 설정
RFT 모델을 평가하기 전에 다음 옵션 중 하나를 사용하여 추론을 설정합니다.
온디맨드 추론
유연한 pay-per-use 평가를 위한 사용자 지정 모델 온디맨드 배포를 생성합니다. 이 옵션에는 추론 중에 처리된 토큰 수에 따라 요금이 부과되는 토큰 기반 요금이 포함됩니다.
평가 모범 사례
-
체계적으로 비교 - 항상 동일한 테스트 프롬프트 및 평가 기준을 사용하여 RFT 모델을 기본 모델과 비교합니다.
-
다양한 테스트 사례 사용 - 실제 사용 사례를 나타내는 다양한 프롬프트 유형 및 시나리오를 포함합니다.
-
보상 조정 검증 - 모델 개선이 훈련 중에 사용된 보상 함수와 일치하는지 확인합니다.
-
엣지 케이스 테스트 - 어렵거나 비정상적인 입력에 대한 모델 동작을 평가하여 견고성을 평가합니다.
-
응답 일관성 모니터링 - 유사한 프롬프트를 사용하여 모델이 여러 실행에서 일관된 품질을 제공하는지 확인합니다.