기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon Bedrock에서 강화 미세 조정으로 모델 사용자 지정
강화 미세 조정은 Amazon Bedrock의 모델 사용자 지정 기법입니다. 보상이라는 피드백 신호를 통해 "좋은" 응답을 구성하는 것을 모델에 교육하여 파운데이션 모델 성능을 개선합니다. 기존의 미세 조정 방법은 레이블이 지정된 데이터 세트에 의존하지만 강화 미세 조정은 피드백 기반 접근 방식을 사용합니다. 이를 통해 모델은 보상 신호를 기반으로 반복적으로 개선할 수 있습니다. 고정된 예제에서 학습하는 대신 보상 함수를 사용하여 특정 비즈니스 사용 사례에 적합한 것으로 간주되는 응답을 평가하고 판단합니다.
강화 미세 조정은 모델이 품질 응답의 원인을 이해하도록 가르칩니다. 미리 레이블이 지정된 대량의 훈련 데이터는 필요하지 않습니다. 이렇게 하면 Amazon Bedrock의 고급 모델 사용자 지정이 더 쉽고 비용 효율적입니다.
이 기능은 모델 최적화를 위한 유연성을 제공하는 두 가지 접근 방식을 지원합니다.
-
검증 가능한 보상을 사용한 강화 학습(RLVR) - 코드 생성 또는 수학 추론과 같은 목표 작업에 규칙 기반 그레이더를 사용합니다.
-
AI 피드백에서 강화 학습(RLAIF) - 지침 준수 또는 콘텐츠 조정과 같은 주관적 작업에 AI 기반 판단자를 사용합니다.
자세한 내용은 보상 함수 설정 단원을 참조하십시오.
강화 미세 조정은 다음과 같은 이점을 제공할 수 있습니다.
-
모델 성능 개선 - 강화 미세 조정은 기본 모델에 비해 모델 정확도를 개선합니다. 이를 통해 더 작고 빠르며 효율적인 모델 변형을 훈련하여 가격과 성능을 최적화할 수 있습니다.
-
유연한 훈련 데이터 - Amazon Bedrock은 대부분의 복잡성을 자동화합니다. 이를 통해 AI 애플리케이션을 구축하는 개발자는 강화 미세 조정에 액세스할 수 있습니다. 기존 Amazon Bedrock 모델 호출 로그를 훈련 데이터로 사용하여 모델을 쉽게 훈련하거나 데이터 세트를 업로드할 수 있습니다.
-
보안 및 규정 준수 - 사용자 지정 프로세스 중에 독점 데이터가 AWS안전하고 관리되는 환경을 절대 벗어나지 않습니다.
강화 미세 조정을 지원하는 모델
다음 표에는 강화 미세 조정으로 사용자 지정할 수 있는 파운데이션 모델이 나와 있습니다.
| 제공업체 | 모델 | 모델 ID | 단일 리전 모델 지원 |
|---|---|---|---|
| Amazon | Nova 2 Lite | amazon.nova-2-lite-v1:0:256k | us-east-1 |
강화 미세 조정 작동 방식
Amazon Bedrock은 3단계 프로세스를 통해 RFT 워크플로를 완전히 자동화합니다.
1단계: 응답 생성
액터 모델(사용자 지정 중인 모델)은 훈련 데이터 세트에서 프롬프트를 수신하고 응답을 생성합니다. 기본적으로 프롬프트당 4개의 응답을 생성합니다. 이 단계는 단일 턴 및 다중 턴 상호 작용을 모두 지원하므로 다양한 사용 사례를 포괄적으로 포괄할 수 있습니다.
2단계: 보상 계산
액터 모델 생성 프롬프트-응답 페어는 선택한 최적화 모델에 의해 평가됩니다.
-
RLVR - Lambda를 통해 실행하여 목표 점수 계산
-
RLAIF - 구성한 기준 및 원칙에 따라 응답을 평가합니다(콘솔은 이를 Lambda 함수로 자동 변환).
3단계: 액터 모델 훈련
Amazon Bedrock은 점수와 함께 프롬프트-응답 페어를 사용하여 그룹 상대 정책 최적화(GRPO)를 사용한 정책 기반 학습을 통해 액터 모델을 훈련합니다. 훈련 루프는 모델이 원하는 성능 지표를 달성하거나 사전 정의된 중지 기준을 충족할 때까지 반복적으로 계속됩니다.
Amazon Bedrock은 병렬 보상 계산, 훈련 파이프라인 최적화를 자동으로 처리하고 보상 해킹 및 정책 축소와 같은 일반적인 강화 학습 문제에 대한 보호를 구현합니다.