As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Prepare dados para modelos de peso aberto
Ao ajustar modelos de peso aberto com ajuste fino de reforço usando compatibilidade com OpenAI, forneça dados de treinamento trazendo seus próprios APIs prompts no formato JSONL com essa finalidade. fine-tune
Formato e requisitos dos dados de treinamento
Os dados de treinamento devem seguir o formato de conclusão de bate-papo do OpenAI com exemplos de 100 a 20 mil. Cada exemplo de treinamento contém:
-
messages: nesse campo, inclua a função de usuário, sistema ou assistente contendo o prompt de entrada fornecido ao modelo. -
reference_answer: nesse campo, ele deve conter o resultado esperado ou os critérios de avaliação que sua função de recompensa usa para pontuar a resposta do modelo. Ela não se limita a resultados estruturados — ela pode conter qualquer formato que ajude sua função de recompensa a avaliar a qualidade. -
[Opcional] Você pode adicionar campos usados pelo avaliador Lambda para avaliação.
Requisitos:
Formato JSONL com prompts no formato de conclusão de chat OpenAI (um prompt por linha)
O objetivo deve ser definido como
fine-tuneUm mínimo de 100 registros no conjunto de dados de treinamento
O Amazon Bedrock valida automaticamente o formato do conjunto de dados de treinamento
API de arquivos
Você pode usar a API de arquivos compatível com OpenAI para carregar seus dados de treinamento para trabalhos de ajuste fino. Os arquivos são armazenados com segurança no Amazon Bedrock e usados na criação de trabalhos de ajuste fino. Para obter detalhes completos da API, consulte a documentação de OpenAI Arquivos
Para fazer o upload de um arquivo de treinamento, escolha a guia do seu método preferido e siga as etapas:
Para recuperar detalhes sobre um arquivo específico, escolha a guia do seu método preferido e siga as etapas:
Para listar os arquivos enviados, escolha a guia do seu método preferido e siga as etapas:
Para excluir um arquivo, escolha a guia do seu método preferido e siga as etapas:
Características dos dados de treinamento efetivos
Dados efetivos de treinamento de RFT requerem três características principais:
-
Clareza e consistência — use instruções claras e inequívocas com formatação consistente. Evite rótulos contraditórios, instruções ambíguas ou respostas de referência conflitantes que enganem o treinamento.
-
Diversidade — inclua formatos de entrada variados, casos extremos e níveis de dificuldade que refletem os padrões de uso da produção em diferentes tipos e cenários de usuários.
-
Funções de recompensa eficientes — Crie funções que sejam executadas rapidamente (segundos, não minutos), que se paralelizem e retornem pontuações consistentes para um treinamento econômico. AWS Lambda
Propriedades adicionais
O formato de dados RFT oferece suporte a campos personalizados além dos requisitos principais do esquema (messagesereference_answer). Essa flexibilidade permite que você adicione quaisquer dados adicionais que sua função de recompensa precise para uma avaliação adequada.
nota
Você não precisa configurar isso em sua receita. O formato de dados suporta inerentemente campos adicionais. Basta incluí-los em seus dados de treinamento JSON e eles serão passados para sua função de recompensa em metadata campo.
Propriedades adicionais comuns
task_id— Identificador exclusivo para rastreamentodifficulty_level— Indicador de complexidade do problemadomain— Área temática ou categoriaexpected_reasoning_steps— Número de etapas na solução
Esses campos adicionais são passados para sua função de recompensa durante a avaliação, permitindo uma lógica de pontuação sofisticada adaptada ao seu caso de uso específico.
Exemplos com propriedades adicionais