이해 모델 증류를 위한 데이터 준비
첫 번째 단계로, 텍스트 이해 프롬프팅 모범 사례를 따르고 Amazon Nova Premier와 Amazon Nova Pro로 입력 프롬프트를 조정하여 교사 모델을 최대한 활용할 수 있도록 프롬프트가 최적화되었는지 확인합니다.
자체 프롬프트를 사용하여 증류 작업을 위한 입력 데이터세트를 준비할 때는 아래 권장 사항을 따르세요.
-
레이블이 지정되지 않은 프롬프트 데이터만 사용할 수 있는 경우에는 모델이 더 잘 학습할 수 있도록 10개 이하의 소량의 선별된 고품질 레이블이 지정된 프롬프트-응답 페어 데이터로 보완하세요. 고품질의 대표적인 예제를 소수 제출하면 교사 모델의 성능을 능가하는 사용자 지정 모델을 생성할 수 있습니다.
-
레이블이 지정된 프롬프트-응답 페어 데이터를 사용할 수 있지만 개선의 여지가 있는 경우 제출된 데이터에 응답을 포함합니다.
-
레이블이 지정된 프롬프트-응답 페어 데이터를 사용할 수 있지만 레이블의 품질이 좋지 않고 교육을 교사 모델에 직접 맞추는 것이 더 적합한 경우 데이터를 제출하기 전에 모든 응답을 제거합니다.
예제 데이터세트 형식
다음 프롬프트는 모델 증류을 위해 레이블이 지정된 프롬프트와 레이블이 지정되지 않은 프롬프트를 모두 제공하는 방법의 예를 제공합니다.
레이블이 없는 프롬프트를 사용한 증류
{ "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "A chat between a curious User and an artificial intelligence Bot. The Bot gives helpful, detailed, and polite answers to the User's questions." } ], "messages": [ { "role": "user", "content": [ { "text": "Why is the sky blue?" } ] } ] }
레이블이 지정된 프롬프트를 사용한 증류
{ "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "A chat between a curious User and an artificial intelligence Bot. The Bot gives helpful, detailed, and polite answers to the User's questions." } ], "messages": [ { "role": "user", "content": [ { "text": "Why is the sky blue?" } ] }, { "role": "assistant", "content": [ { "text": "The sky is blue because molecules in the air scatter blue light from the Sun more than other colors." } ] } ] }
데이터세트 제약 조건
모델 증류를 수행할 때 제공해야 하는 프롬프트 또는 프롬프트-응답 페어의 최소 및 최대 수가 있습니다.
Item |
최소 |
Maximum |
---|---|---|
프롬프트 |
100 |
15K |
프롬프트-응답 페어 |
100 |
15K |