As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Crie e gerencie trabalhos de ajuste fino para modelos Amazon Nova
Você pode criar um trabalho de ajuste fino de reforço (RFT) usando o console ou a API do Amazon Bedrock. O trabalho de RFT pode levar algumas horas, dependendo do tamanho dos dados de treinamento, do número de épocas e da complexidade das funções de recompensa.
Pré-requisitos
-
Crie uma função de serviço do IAM com as permissões necessárias. Para obter informações abrangentes sobre segurança e permissões, incluindo permissões específicas de RFT, consulte. Acesso e segurança para modelos Amazon Nova
-
(Opcional) Criptografe dados de entrada e saída, seu trabalho de RFT ou solicitações de inferência feitas em modelos personalizados. Para obter mais informações, consulte Criptografia de modelos personalizados.
Crie seu trabalho de RFT
Escolha a guia correspondente ao método de sua preferência e siga as etapas:
Monitore seu trabalho de treinamento em RFT
O Amazon Bedrock fornece monitoramento em tempo real com gráficos e métricas visuais durante o treinamento de RFT. Essas métricas ajudam você a entender se o modelo converge adequadamente e se a função de recompensa orienta efetivamente o processo de aprendizado.
Rastreamento do status do trabalho
Você pode monitorar o status do seu trabalho de RFT por meio das fases de validação e treinamento no console do Amazon Bedrock.
Indicadores de conclusão:
-
O status do trabalho muda para Concluído quando o treinamento é concluído com êxito
-
O modelo ARN personalizado fica disponível para implantação
-
As métricas de treinamento atingem limites de convergência
Métricas de treinamento em tempo real
O Amazon Bedrock fornece monitoramento em tempo real durante o treinamento de RFT com gráficos visuais exibindo métricas de treinamento e validação.
Principais métricas de treinamento
-
Perda de treinamento - mede o quão bem o modelo está aprendendo com os dados de treinamento
-
Estatísticas de recompensa de treinamento - Mostra as pontuações de recompensa atribuídas por suas funções de recompensa
-
Margem de recompensa - mede a diferença entre recompensas de resposta boa e ruim
-
Precisão nos conjuntos de treinamento e validação - Mostra o desempenho do modelo nos dados de treinamento e retidos
Categorias métricas detalhadas
Métricas de recompensa —
critic/rewards/meancritic/rewards/max,,critic/rewards/min(distribuição de recompensas) eval-score/rewards/mean@1(recompensas de validação)Comportamento do modelo —
actor/entropy(variação da política; quanto maior, mais exploratório)Saúde do treinamento —
actor/pg_loss(perda do gradiente da política),actor/pg_clipfrac(frequência de atualizações recortadas) eactor/grad_norm(magnitude do gradiente)Características de resposta —
prompt_length/mean,prompt_length/max,prompt_length/min(estatísticas do token de entrada),response_length/mean,response_length/max,response_length/min(estatísticas do token de saída) eresponse/aborted_ratio(taxa de geração incompleta; 0 é igual a tudo concluído)Desempenho —
perf/throughput(produtividade do treinamento),perf/time_per_step(tempo por etapa do treinamento) etiming_per_token_ms/*(tempos de processamento por token)Uso de recursos —
perf/max_memory_allocated_gb,perf/max_memory_reserved_gb(memória da GPU) eperf/cpu_memory_used_gb(memória da CPU)
Visualização do progresso do treinamento
O console exibe gráficos interativos que são atualizados em tempo real à medida que seu trabalho de RFT progride. Essas visualizações podem ajudar você a:
-
Rastreie a convergência em direção ao desempenho ideal
-
Identifique possíveis problemas de treinamento com antecedência
-
Determine os pontos de parada ideais
-
Compare o desempenho em diferentes épocas
Configurar inferência
Após a conclusão do trabalho, implante o modelo RFT para inferência sob demanda ou use o Provisioned Throughput para obter um desempenho consistente. Para configurar a inferência, consulteConfigurar a inferência para um modelo personalizado.
Use Test in Playground para avaliar e comparar as respostas com o modelo básico. Para avaliar seu modelo RFT completo, consulte. Avalie seu modelo de RFT