Avalie seu modelo de RFT - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Avalie seu modelo de RFT

Depois que seu trabalho de ajuste fino de reforço for concluído com êxito, você poderá avaliar o desempenho do seu modelo personalizado usando vários métodos de avaliação. O Amazon Bedrock fornece ferramentas de avaliação integradas para ajudar você a comparar seu modelo RFT com o modelo básico e validar melhorias.

Métodos de avaliação

O Amazon Bedrock oferece várias maneiras de avaliar o desempenho do seu modelo RFT.

Métricas de validação

Se você fizer o upload de um conjunto de dados de validação, verá dois gráficos adicionais nas métricas de treinamento.

  • Recompensas de validação - Mostra o quão bem seu modelo é generalizado além dos exemplos de treinamento. Pontuações mais baixas do que as recompensas de treinamento são normais e esperadas.

  • Duração do episódio de validação - Duração média da resposta em dados de validação não vistos. Mostra a eficiência com que seu modelo responde às novas entradas em comparação com os exemplos de treinamento.

Teste no Playground

Use o recurso Testar no Playground para avaliações rápidas e ad-hoc. Para usar o recurso Testar no Playground, a inferência precisa ser configurada. Para obter mais informações, consulte Configurando a inferência para avaliação.

Essa ferramenta interativa permite que você:

  • Teste os prompts diretamente com seu modelo RFT

  • Compare as respostas side-by-side entre seu modelo personalizado e o modelo básico

  • Avalie as melhorias na qualidade da resposta em tempo real

  • Experimente com diferentes instruções para avaliar as capacidades do modelo

Avaliação do modelo Bedrock

Use a avaliação de modelo do Amazon Bedrock para avaliar seu modelo RFT usando seus próprios conjuntos de dados. Isso fornece uma análise abrangente de desempenho com métricas e benchmarks padronizados. Aqui estão alguns exemplos dos benefícios do Amazon Bedrock Model Evaluation.

  • Avaliação sistemática usando conjuntos de dados de teste personalizados

  • Comparações quantitativas de desempenho

  • Métricas padronizadas para avaliação consistente

  • Integração com fluxos de trabalho de avaliação existentes do Amazon Bedrock

Configurando a inferência para avaliação

Antes de avaliar seu modelo de RFT, configure a inferência usando uma das seguintes opções:

Inferência sob demanda

Crie um modelo personalizado de implantação sob demanda para pay-per-use avaliação flexível. Essa opção inclui preços baseados em tokens que são cobrados com base no número de tokens processados durante a inferência.

Melhores práticas de avaliação

  • Compare sistematicamente - Sempre avalie seu modelo RFT em relação ao modelo básico usando as mesmas instruções de teste e critérios de avaliação.

  • Use diversos casos de teste - inclua vários tipos de solicitações e cenários que representem seus casos de uso no mundo real.

  • Valide o alinhamento da recompensa - Garanta que as melhorias do seu modelo estejam alinhadas com as funções de recompensa usadas durante o treinamento.

  • Teste casos extremos - Avalie o comportamento do modelo em entradas desafiadoras ou incomuns para avaliar a robustez.

  • Monitore a consistência da resposta - Verifique se seu modelo fornece qualidade consistente em várias execuções com solicitações semelhantes.