Formato e requisitos dos dados de treinamento API de arquivos Características dos dados de treinamento efetivos Propriedades adicionais

Prepare dados para modelos de peso aberto

Ao ajustar modelos de peso aberto com ajuste fino de reforço usando OpenAI-compatible APIs, forneça dados de treinamento trazendo seus próprios prompts no formato JSONL com essa finalidade. fine-tune

Formato e requisitos dos dados de treinamento

Os dados de treinamento devem seguir o formato de conclusão de bate-papo do OpenAI com exemplos de 100 a 20 mil. Cada exemplo de treinamento contém:

messages: nesse campo, inclua a função de usuário, sistema ou assistente contendo o prompt de entrada fornecido ao modelo.
reference_answer: nesse campo, ele deve conter o resultado esperado ou os critérios de avaliação que sua função de recompensa usa para pontuar a resposta do modelo. Ela não se limita a resultados estruturados — ela pode conter qualquer formato que ajude sua função de recompensa a avaliar a qualidade.
[Opcional] Você pode adicionar campos usados pelo avaliador Lambda para avaliação.

Requisitos:

Formato JSONL com prompts no formato de conclusão de chat OpenAI (um prompt por linha)
O objetivo deve ser definido como fine-tune
Um mínimo de 100 registros no conjunto de dados de treinamento
O Amazon Bedrock valida automaticamente o formato do conjunto de dados de treinamento

API de arquivos

Você pode usar a API de OpenAI-compatible arquivos para carregar seus dados de treinamento para trabalhos de ajuste fino. Os arquivos são armazenados com segurança no Amazon Bedrock e usados na criação de trabalhos de ajuste fino. Para obter detalhes completos da API, consulte a documentação de OpenAI Arquivos.

Para carregar um arquivo de treinamento, escolha a guia do seu método preferido e siga as etapas:

Para recuperar detalhes sobre um arquivo específico, escolha a guia do seu método preferido e siga as etapas:

Para listar os arquivos enviados, escolha a guia do seu método preferido e siga as etapas:

Para excluir um arquivo, escolha a guia do seu método preferido e siga as etapas:

Características dos dados de treinamento efetivos

Dados eficazes de treinamento de RFT requerem três características principais:

Clareza e consistência — use instruções claras e inequívocas com formatação consistente. Evite rótulos contraditórios, instruções ambíguas ou respostas de referência conflitantes que enganem o treinamento.
Diversidade — inclua formatos de entrada variados, casos extremos e níveis de dificuldade que refletem os padrões de uso da produção em diferentes tipos e cenários de usuários.
Funções de recompensa eficientes — Crie funções que sejam executadas rapidamente (segundos, não minutos), que se paralelizem e retornem pontuações consistentes para um treinamento econômico. AWS Lambda

Propriedades adicionais

O formato de dados de RFT é compatível com campos personalizados além dos requisitos principais do esquema (messages e reference_answer). Essa flexibilidade permite que você adicione quaisquer dados adicionais que sua função de recompensa precise para uma avaliação adequada.

nota

Você não precisa configurar isso em sua receita. O formato de dados suporta inerentemente campos adicionais. Basta incluí-los em seus dados de treinamento JSON e eles serão passados para sua função de recompensa no campo metadata.

Propriedades comuns adicionais

task_id: identificador único de rastreamento
difficulty_level: indicador de complexidade do problema
domain: área ou categoria do assunto
expected_reasoning_steps: número de etapas na solução

Esses campos adicionais são passados para sua função de recompensa durante a avaliação, permitindo uma lógica de pontuação sofisticada adaptada ao seu caso de uso específico.

Exemplos com propriedades adicionais

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Acesso e segurança

Configurando funções de recompensa