As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Prepare dados para modelos de peso aberto
Ao ajustar modelos de peso aberto com ajuste fino de reforço usando OpenAI-compatible APIs, forneça dados de treinamento trazendo seus próprios prompts no formato JSONL com essa finalidade. fine-tune
Formato e requisitos dos dados de treinamento
Os dados de treinamento devem seguir o formato de conclusão de bate-papo do OpenAI com exemplos de 100 a 20 mil. Cada exemplo de treinamento contém:
-
messages: nesse campo, inclua a função de usuário, sistema ou assistente contendo o prompt de entrada fornecido ao modelo. -
reference_answer: nesse campo, ele deve conter o resultado esperado ou os critérios de avaliação que sua função de recompensa usa para pontuar a resposta do modelo. Ela não se limita a resultados estruturados — ela pode conter qualquer formato que ajude sua função de recompensa a avaliar a qualidade. -
[Opcional] Você pode adicionar campos usados pelo avaliador Lambda para avaliação.
Requisitos:
Formato JSONL com prompts no formato de conclusão de chat OpenAI (um prompt por linha)
O objetivo deve ser definido como
fine-tuneUm mínimo de 100 registros no conjunto de dados de treinamento
O Amazon Bedrock valida automaticamente o formato do conjunto de dados de treinamento
API de arquivos
Você pode usar a API de OpenAI-compatible arquivos para carregar seus dados de treinamento para trabalhos de ajuste fino. Os arquivos são armazenados com segurança no Amazon Bedrock e usados na criação de trabalhos de ajuste fino. Para obter detalhes completos da API, consulte a documentação de OpenAI Arquivos
Para carregar um arquivo de treinamento, escolha a guia do seu método preferido e siga as etapas:
Para recuperar detalhes sobre um arquivo específico, escolha a guia do seu método preferido e siga as etapas:
Para listar os arquivos enviados, escolha a guia do seu método preferido e siga as etapas:
Para excluir um arquivo, escolha a guia do seu método preferido e siga as etapas:
Características dos dados de treinamento efetivos
Dados eficazes de treinamento de RFT requerem três características principais:
-
Clareza e consistência — use instruções claras e inequívocas com formatação consistente. Evite rótulos contraditórios, instruções ambíguas ou respostas de referência conflitantes que enganem o treinamento.
-
Diversidade — inclua formatos de entrada variados, casos extremos e níveis de dificuldade que refletem os padrões de uso da produção em diferentes tipos e cenários de usuários.
-
Funções de recompensa eficientes — Crie funções que sejam executadas rapidamente (segundos, não minutos), que se paralelizem e retornem pontuações consistentes para um treinamento econômico. AWS Lambda
Propriedades adicionais
O formato de dados de RFT é compatível com campos personalizados além dos requisitos principais do esquema (messages e reference_answer). Essa flexibilidade permite que você adicione quaisquer dados adicionais que sua função de recompensa precise para uma avaliação adequada.
nota
Você não precisa configurar isso em sua receita. O formato de dados suporta inerentemente campos adicionais. Basta incluí-los em seus dados de treinamento JSON e eles serão passados para sua função de recompensa no campo metadata.
Propriedades comuns adicionais
task_id: identificador único de rastreamentodifficulty_level: indicador de complexidade do problemadomain: área ou categoria do assuntoexpected_reasoning_steps: número de etapas na solução
Esses campos adicionais são passados para sua função de recompensa durante a avaliação, permitindo uma lógica de pontuação sofisticada adaptada ao seu caso de uso específico.
Exemplos com propriedades adicionais