Amazon Nova 2.0에서 감독되는 미세 조정 - Amazon Bedrock

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon Nova 2.0에서 감독되는 미세 조정

개요

Amazon Nova 2.0 SFT 데이터는 선택적 추론 콘텐츠 필드를 추가하여 Amazon Nova 1.0과 동일한 Converse API 형식을 사용합니다. 전체 형식 사양은 ReasoningContentBlockConverse API 스키마를 참조하세요.

지원되는 기능

  • 입력 유형 - 사용자 콘텐츠 블록의 텍스트, 이미지 또는 비디오

  • 보조 콘텐츠 - 텍스트 전용 응답 및 추론 콘텐츠

  • 데이터 세트 구성 - 동종이어야 합니다. 텍스트 전용 회전, 텍스트 + 이미지 회전 또는 텍스트 + 비디오 회전 중 하나를 선택합니다.

중요

동일한 데이터 세트 내에서 또는 서로 다른 차례로 이미지와 비디오를 혼합할 수 없습니다.

현재 제한 사항

  • 도구 사용 - 도구 사용은 입력 형식으로 지원되지만 현재 Amazon Nova 2.0 SFT에서는 지원되지 않습니다. 도구 섹션을 추가하면 작업이 실패할 수 있습니다.

  • 멀티모달 추론 콘텐츠 - Converse 형식은 이미지 기반 추론 콘텐츠를 지원하지만 Amazon Nova 2.0 SFT에서는 지원되지 않습니다.

  • 검증 세트 - 검증 세트 제공은 UI를 통해 지원되지만 SFT 훈련 중에는 지원되지 않습니다.

지원되는 미디어 형식

  • 이미지 - PNG, JPEG, GIF

  • 비디오 - MOV, MKV, MP4

데이터 형식 예제

Text-only

이 예제는 Amazon Nova 1.0과 호환되는 기본 텍스트 전용 형식을 보여줍니다.

{ "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "You are a digital assistant with a friendly personality" } ], "messages": [ { "role": "user", "content": [ { "text": "What country is right next to Australia?" } ] }, { "role": "assistant", "content": [ { "text": "The closest country is New Zealand" } ] } ] }
Text with reasoning

이 예제에서는 Amazon Nova 2.0에 대한 선택적 추론 콘텐츠가 포함된 텍스트를 보여줍니다.

{ "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "You are a digital assistant with a friendly personality" } ], "messages": [ { "role": "user", "content": [ { "text": "What country is right next to Australia?" } ] }, { "role": "assistant", "content": [ { "reasoningContent": { "reasoningText": { "text": "I need to use my world knowledge of geography to answer this question" } } }, { "text": "The closest country to Australia is New Zealand, located to the southeast across the Tasman Sea." } ] } ] }
참고

현재는 내에서만 지원reasoningText됩니다reasoningContent. 다중 모달 추론 콘텐츠는 아직 사용할 수 없습니다.

Image + text

이 예제에서는 텍스트와 함께 이미지 입력을 포함하는 방법을 보여줍니다.

{ "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "You are a helpful assistant." } ], "messages": [ { "role": "user", "content": [ { "image": { "format": "jpeg", "source": { "s3Location": { "uri": "s3://your-bucket/your-path/your-image.jpg", "bucketOwner": "your-aws-account-id" } } } }, { "text": "Which country is highlighted in the image?" } ] }, { "role": "assistant", "content": [ { "reasoningContent": { "reasoningText": { "text": "I will determine the highlighted country by examining its location on the map and using my geographical knowledge" } } }, { "text": "The highlighted country is New Zealand" } ] } ] }
Video + text

이 예제에서는 비디오 입력을 텍스트와 함께 포함하는 방법을 보여줍니다.

{ "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "You are a helpful assistant." } ], "messages": [ { "role": "user", "content": [ { "video": { "format": "mp4", "source": { "s3Location": { "uri": "s3://your-bucket/your-path/your-video.mp4", "bucketOwner": "your-aws-account-id" } } } }, { "text": "What is shown in this video?" } ] }, { "role": "assistant", "content": [ { "reasoningContent": { "reasoningText": { "text": "I will analyze the video content to identify key elements" } } }, { "text": "The video shows a map with New Zealand highlighted" } ] } ] }

추론 및 비이유 모드

추론 콘텐츠 이해: 추론 콘텐츠(chain-of-thought이라고도 함)는 최종 답변을 생성하기 전에 모델의 중간 사고 단계를 캡처합니다. 그런 assistant 다음 reasoningContent 필드를 사용하여 이러한 추론 트레이스를 포함합니다.

손실 계산 방법:

  • 추론 콘텐츠 포함 - 훈련 손실에는 추론 토큰과 최종 출력 토큰이 모두 포함됩니다.

  • 추론 콘텐츠 없음 - 훈련 손실은 최종 출력 토큰에서만 계산됩니다.

멀티턴 대화에 여러 어시스턴트 턴reasoningContent을 포함할 수 있습니다.

추론 모드를 활성화해야 하는 경우

모델이 최종 출력을 생성하기 전에 사고 토큰을 생성하도록 하거나 복잡한 추론 작업reasoning_enabled: true에서 향상된 성능이 필요한 경우 훈련 구성에서를 설정합니다.

참고

훈련 데이터에 추론 콘텐츠가 포함되어 있는지 여부에 관계없이 추론 모드를 활성화할 수 있습니다. 그러나 모델이 이러한 예제에서 학습하고 추론 품질을 개선할 수 있도록 훈련 데이터에 추론 추적을 포함하는 것이 좋습니다.

명시적 추론 단계의 이점을 얻지 못하거나 속도를 최적화하고 토큰 사용량을 줄이려는 간단한 작업을 훈련할 reasoning_enabled: false 때를 설정합니다.

서식 지정 지침

  • 추론 콘텐츠에는 일반 텍스트를 사용합니다.

  • 작업에 특별히 필요하지 </thinking> 않은 한 <thinking> 및와 같은 마크업 태그를 사용하지 마세요.

  • 추론 콘텐츠가 명확하고 문제 해결 프로세스와 관련이 있는지 확인합니다.

추론 데이터 생성

데이터 세트에 추론 추적이 없는 경우와 같은 추론 지원 모델을 사용하여 생성할 수 있습니다. 모델에 입력-출력 페어를 제공하고 추론 프로세스를 캡처하여 추론 증강 데이터 세트를 구축합니다.

훈련에 추론 토큰 사용

추론 모드가 활성화된 상태에서 훈련하면 모델은 내부 추론을 최종 답변과 분리하는 방법을 학습합니다. 훈련 프로세스는 다음을 수행합니다.

  • 입력, 추론, 답변 등 데이터를 트리플로 구성

  • 추론 토큰과 응답 토큰 모두에서 표준 다음 토큰 예측 손실을 사용하여 최적화합니다.

  • 응답을 생성하기 전에 모델이 내부적으로 추론하도록 장려합니다.

효과적인 추론 콘텐츠

고품질 추론 콘텐츠에는 다음이 포함되어야 합니다.

  • 중간 사고 및 분석

  • 논리적 공제 및 추론 단계

  • Step-by-step 문제 해결 접근 방식

  • 단계와 결론 간의 명시적 연결

이렇게 하면 모델이 답변하기 전에 생각할 수 있는 능력을 개발하는 데 도움이 됩니다.

데이터 세트 준비 지침

다음 표에는 훈련 데이터 세트를 준비하기 위한 지침이 나와 있습니다.

데이터 세트 준비 지침

지침 설명
크기 및 품질
  • 권장 크기: 샘플 2,000~10,000개

  • 최소 샘플: 200

  • 수량보다 품질을 우선시합니다. 예제가 정확하고 주석이 잘 달렸는지 확인합니다.

  • 데이터 세트는 프로덕션 사용 사례를 긴밀하게 반영해야 합니다.

다양성

다음을 수행하는 다양한 예제를 포함합니다.

  • 예상 입력의 전체 범위를 포함합니다.

  • 다양한 난이도 표시

  • 엣지 케이스 및 변형 포함

  • 패턴을 좁히기 위한 과적합 방지

출력 형식

어시스턴트 응답에서 원하는 출력 형식을 명확하게 지정합니다. 예를 들어 JSON 구조, 테이블, CSV 형식 또는 애플리케이션별 사용자 지정 형식이 있습니다.

멀티턴 대화
  • 손실은 사용자 턴이 아닌 어시스턴트 턴에서만 계산됩니다.

  • 각 어시스턴트 응답의 형식이 올바르게 지정되어야 합니다.

  • 대화 전환 간에 일관성을 유지합니다.

품질 체크리스트
  • 충분한 데이터 세트 크기(2,000~10,000개 샘플)

  • 모든 사용 사례를 다루는 다양한 예제

  • 명확하고 일관된 출력 형식 지정

  • 정확한 레이블 및 주석

  • 프로덕션 시나리오의 대표

  • 모순이나 모호성이 없음