Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Cree y gestione trabajos de ajuste preciso para los modelos de Amazon Nova
Puede crear un trabajo de ajuste fino de refuerzo (RFT) mediante la consola o la API de Amazon Bedrock. El trabajo de RFT puede tardar unas horas en función del tamaño de los datos de entrenamiento, del número de épocas y de la complejidad de las funciones de recompensa.
Requisitos previos
-
Cree un rol de servicio de IAM con los permisos necesarios. Para obtener información completa sobre seguridad y permisos, incluidos los permisos específicos de RFT, consulte. Acceso y seguridad para los modelos Amazon Nova
-
(Opcional) Cifre los datos de entrada y salida, su trabajo de RFT o las solicitudes de inferencia realizadas a modelos personalizados. Para obtener más información, consulte Cifrado de modelos personalizados.
Cree su trabajo de RFT
Elija la pestaña del método que prefiera y siga estos pasos:
Supervise su trabajo de formación en RFT
Amazon Bedrock proporciona supervisión en tiempo real con gráficos y métricas visuales durante el entrenamiento de RFT. Estas métricas le ayudan a comprender si el modelo converge correctamente y si la función de recompensa guía eficazmente el proceso de aprendizaje.
Seguimiento del estado del trabajo
Puede supervisar el estado de su trabajo de RFT a través de las fases de validación y formación en la consola de Amazon Bedrock.
Indicadores de finalización:
-
El estado del trabajo cambia a Completado cuando la formación se completa correctamente
-
El ARN del modelo personalizado pasa a estar disponible para su implementación
-
Las métricas de entrenamiento alcanzan los umbrales de convergencia
Métricas de entrenamiento en tiempo real
Amazon Bedrock proporciona supervisión en tiempo real durante el entrenamiento de RFT con gráficos visuales que muestran las métricas de entrenamiento y validación.
Métricas principales de entrenamiento
-
Pérdida de entrenamiento: mide qué tan bien aprende el modelo a partir de los datos de entrenamiento
-
Estadísticas de recompensas por entrenamiento: muestran las puntuaciones de recompensa asignadas por tus funciones de recompensa
-
Margen de recompensa: mide la diferencia entre las recompensas por respuestas buenas y malas
-
Precisión en los conjuntos de entrenamiento y validación: muestra el rendimiento del modelo tanto en los datos de entrenamiento como en los datos retenidos
Categorías métricas detalladas
Métricas de recompensas:
critic/rewards/meancritic/rewards/max,critic/rewards/min(distribución de recompensas) yval-score/rewards/mean@1(recompensas de validación)Comportamiento del modelo:
actor/entropy(variación de política; cuanto más alto es igual a más exploratorio)Salud formativa:
actor/pg_loss(pérdida del gradiente de las políticas),actor/pg_clipfrac(frecuencia de las actualizaciones recortadas) yactor/grad_norm(magnitud del gradiente)Características de respuesta:
prompt_length/mean,prompt_length/max,prompt_length/min(estadísticas del token de entrada),response_length/meanresponse_length/max,response_length/min(estadísticas del token de salida) yresponse/aborted_ratio(tasa de generación incompleta; 0 es igual a todo completado)Rendimiento:
perf/throughput(rendimiento del entrenamiento),perf/time_per_step(tiempo por paso de entrenamiento) ytiming_per_token_ms/*(tiempos de procesamiento por token)Uso de recursos:
perf/max_memory_allocated_gb,perf/max_memory_reserved_gb(memoria de GPU) yperf/cpu_memory_used_gb(memoria de CPU)
Visualización del progreso del entrenamiento
La consola muestra gráficos interactivos que se actualizan en tiempo real a medida que avanza tu trabajo de RFT. Estas visualizaciones pueden ayudarle a:
-
Realice un seguimiento de la convergencia hacia un rendimiento óptimo
-
Identifique pronto los posibles problemas de formación
-
Determine los puntos de parada óptimos
-
Compare el rendimiento en diferentes épocas
Configure la inferencia
Una vez finalizado el trabajo, implemente el modelo RFT para realizar inferencias bajo demanda o utilice el rendimiento aprovisionado para obtener un rendimiento uniforme. Para configurar la inferencia, consulte. Configuración de la inferencia para un modelo personalizado
Utilice Test in Playground para evaluar y comparar las respuestas con el modelo base. Para evaluar el modelo de RFT completo, consulteEvalúe su modelo RFT.