As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Avalie seu modelo de RFT
Depois que seu trabalho de ajuste fino de reforço for concluído com êxito, você poderá avaliar o desempenho do seu modelo personalizado usando vários métodos de avaliação. O Amazon Bedrock fornece ferramentas de avaliação integradas para ajudar você a comparar seu modelo RFT com o modelo básico e validar melhorias.
Métodos de avaliação
O Amazon Bedrock oferece várias maneiras de avaliar o desempenho do seu modelo RFT.
Métricas de validação
Se você fizer o upload de um conjunto de dados de validação, verá dois gráficos adicionais nas métricas de treinamento.
-
Recompensas de validação - Mostra o quão bem seu modelo é generalizado além dos exemplos de treinamento. Pontuações mais baixas do que as recompensas de treinamento são normais e esperadas.
-
Duração do episódio de validação - Duração média da resposta em dados de validação não vistos. Mostra a eficiência com que seu modelo responde às novas entradas em comparação com os exemplos de treinamento.
Teste no Playground
Use o recurso Testar no Playground para avaliações rápidas e ad-hoc. Para usar o recurso Testar no Playground, a inferência precisa ser configurada. Para obter mais informações, consulte Configurando a inferência para avaliação.
Essa ferramenta interativa permite que você:
-
Teste os prompts diretamente com seu modelo RFT
-
Compare as respostas side-by-side entre seu modelo personalizado e o modelo básico
-
Avalie as melhorias na qualidade da resposta em tempo real
-
Experimente com diferentes instruções para avaliar as capacidades do modelo
Avaliação do modelo Bedrock
Use a avaliação de modelo do Amazon Bedrock para avaliar seu modelo RFT usando seus próprios conjuntos de dados. Isso fornece uma análise abrangente de desempenho com métricas e benchmarks padronizados. Aqui estão alguns exemplos dos benefícios do Amazon Bedrock Model Evaluation.
-
Avaliação sistemática usando conjuntos de dados de teste personalizados
-
Comparações quantitativas de desempenho
-
Métricas padronizadas para avaliação consistente
-
Integração com fluxos de trabalho de avaliação existentes do Amazon Bedrock
Configurando a inferência para avaliação
Antes de avaliar seu modelo de RFT, configure a inferência usando uma das seguintes opções:
Inferência sob demanda
Crie um modelo personalizado de implantação sob demanda para pay-per-use avaliação flexível. Essa opção inclui preços baseados em tokens que são cobrados com base no número de tokens processados durante a inferência.
Melhores práticas de avaliação
-
Compare sistematicamente - Sempre avalie seu modelo RFT em relação ao modelo básico usando as mesmas instruções de teste e critérios de avaliação.
-
Use diversos casos de teste - inclua vários tipos de solicitações e cenários que representem seus casos de uso no mundo real.
-
Valide o alinhamento da recompensa - Garanta que as melhorias do seu modelo estejam alinhadas com as funções de recompensa usadas durante o treinamento.
-
Teste casos extremos - Avalie o comportamento do modelo em entradas desafiadoras ou incomuns para avaliar a robustez.
-
Monitore a consistência da resposta - Verifique se seu modelo fornece qualidade consistente em várias execuções com solicitações semelhantes.