Preparar dados para destilar modelos de compreensão - Amazon Nova

Preparar dados para destilar modelos de compreensão

Como primeira etapa, siga o Práticas recomendadas para criação de prompts de compreensão de texto e ajuste o prompt de entrada com o Amazon Nova Premier e o Amazon Nova Pro para garantir que o prompt seja otimizado para obter a melhor performance do modelo instrutor.

Ao preparar seu conjunto de dados de entrada para um trabalho de destilação usando seus próprios prompts, siga as recomendações abaixo:

  • Quando somente dados de prompts não rotulados estiverem disponíveis, complemente-os com uma pequena quantidade (aproximadamente dez) de dados de pares de prompt-resposta rotulados de alta qualidade e selecionados para ajudar o modelo a aprender melhor. Caso envie um pequeno número de exemplos representativos de alta qualidade, você poderá criar um modelo personalizado que exceda a performance do modelo instrutor.

  • Quando os dados do par prompt-resposta rotulados estiverem disponíveis, mas tiverem algum espaço para melhorias, inclua as respostas nos dados enviados.

  • Quando os dados do par prompt-resposta rotulados estiverem disponíveis, mas os rótulos forem de baixa qualidade, e o treinamento for mais adequado para se alinhar diretamente ao modelo instrutor, remova todas as respostas antes de enviar os dados.

Formatos de exemplo de conjunto de dados

Os prompts a seguir fornecem exemplos de como você pode fornecer prompts rotulados e não rotulados para a destilação de modelos.

Destilação usando prompts sem rótulos

{ "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "A chat between a curious User and an artificial intelligence Bot. The Bot gives helpful, detailed, and polite answers to the User's questions." } ], "messages": [ { "role": "user", "content": [ { "text": "Why is the sky blue?" } ] } ] }

Destilação usando prompts com rótulos

{ "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "A chat between a curious User and an artificial intelligence Bot. The Bot gives helpful, detailed, and polite answers to the User's questions." } ], "messages": [ { "role": "user", "content": [ { "text": "Why is the sky blue?" } ] }, { "role": "assistant", "content": [ { "text": "The sky is blue because molecules in the air scatter blue light from the Sun more than other colors." } ] } ] }

Restrições de conjunto de dados

Quando você executa a destilação de modelos, há um número mínimo e máximo de prompts ou pares de prompt-resposta que você deve fornecer.

Item

Mínimo

Máximo

Solicitações

100

15 mil

Pares de prompt-resposta

100

15 mil