기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon Nova 모델에 대한 미세 조정 작업 생성 및 관리
Amazon Bedrock 콘솔 또는 API를 사용하여 강화 미세 조정(RFT) 작업을 생성할 수 있습니다. RFT 작업은 훈련 데이터의 크기, epoch 수, 보상 함수의 복잡성에 따라 몇 시간이 걸릴 수 있습니다.
사전 조건
-
필요한 권한을 가진 IAM 서비스 역할을 생성합니다. RFT별 권한을 포함한 포괄적인 보안 및 권한 정보는 섹션을 참조하세요Amazon Nova 모델의 액세스 및 보안.
-
(선택 사항) 사용자 지정 모델에 대한 입력 및 출력 데이터, RFT 작업 또는 추론 요청을 암호화합니다. 자세한 내용은 사용자 지정 모델 암호화를 참조하세요.
RFT 작업 생성
원하는 방법의 탭을 선택한 후 다음 단계를 따릅니다.
RFT 훈련 작업 모니터링
Amazon Bedrock은 RFT 훈련 중에 시각적 그래프 및 지표를 사용하여 실시간 모니터링을 제공합니다. 이러한 지표는 모델이 제대로 수렴되는지 여부와 보상 함수가 학습 프로세스를 효과적으로 안내하는지 이해하는 데 도움이 됩니다.
작업 상태 추적
Amazon Bedrock 콘솔의 검증 및 훈련 단계를 통해 RFT 작업 상태를 모니터링할 수 있습니다.
완료 지표:
-
훈련이 성공적으로 완료되면 작업 상태가 완료됨으로 변경됩니다.
-
사용자 지정 모델 ARN 배포 가능
-
훈련 지표가 수렴 임계값에 도달
실시간 훈련 지표
Amazon Bedrock은 훈련 및 검증 지표를 표시하는 시각적 그래프를 사용하여 RFT 훈련 중에 실시간 모니터링을 제공합니다.
핵심 훈련 지표
-
훈련 손실 - 모델이 훈련 데이터에서 얼마나 잘 학습하고 있는지 측정합니다.
-
훈련 보상 통계 - 보상 함수에서 할당한 보상 점수를 표시합니다.
-
보상 마진 - 좋은 대응 보상과 나쁜 대응 보상의 차이를 측정합니다.
-
훈련 및 검증 세트의 정확도 - 훈련 및 홀드아웃 데이터 모두에 대한 모델 성능을 보여줍니다.
세부 지표 범주
보상 지표 -
critic/rewards/mean,critic/rewards/max,critic/rewards/min(보상 배포) 및val-score/rewards/mean@1(검증 보상)모델 동작 -
actor/entropy(정책 변형, 높을수록 더 탐색적임)훈련 상태 -
actor/pg_loss(정책 그라데이션 손실),actor/pg_clipfrac(클리핑된 업데이트 빈도) 및actor/grad_norm(완전한 크기)응답 특성 -
prompt_length/mean,prompt_length/max,prompt_length/min(입력 토큰 통계),response_length/mean,response_length/max,response_length/min(출력 토큰 통계) 및response/aborted_ratio(미완료 생성 속도, 0은 모두 완료됨)성능 -
perf/throughput(훈련 처리량),perf/time_per_step(훈련 단계당 시간) 및timing_per_token_ms/*(토큰당 처리 시간)리소스 사용량 -
perf/max_memory_allocated_gb,perf/max_memory_reserved_gb(GPU 메모리) 및perf/cpu_memory_used_gb(CPU 메모리)
훈련 진행 상황 시각화
콘솔에는 RFT 작업이 진행됨에 따라 실시간으로 업데이트되는 대화형 그래프가 표시됩니다. 이러한 시각화는 다음과 같은 이점을 제공합니다.
-
최적의 성능을 향한 수렴 추적
-
잠재적 훈련 문제를 조기에 식별
-
최적의 중지 지점 결정
-
다양한 에포크의 성능 비교
추론 설정
작업 완료 후 온디맨드 추론을 위해 RFT 모델을 배포하거나 일관된 성능을 위해 프로비저닝된 처리량을 사용합니다. 추론 설정은 섹션을 참조하세요사용자 지정 모델의 추론 설정.
플레이그라운드에서 테스트를 사용하여 응답을 평가하고 기본 모델과 비교합니다. 완료된 RFT 모델을 평가하려면 섹션을 참조하세요RFT 모델 평가.