Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Configuración de funciones de recompensa para los modelos Amazon Nova
Las funciones de recompensa evalúan la calidad de la respuesta y proporcionan señales de retroalimentación para el entrenamiento del modelo. Puede configurar las funciones de recompensa utilizando funciones Lambda personalizadas o modelos básicos alojados en Amazon Bedrock como jueces. Hay disponibles plantillas guiadas para simplificar la creación de funciones de recompensa para tareas comunes, como el seguimiento de las instrucciones y la validación del formato. Elija el enfoque que se adapte a los requisitos de su tarea.
Refuerce el aprendizaje mediante recompensas verificables (RLVR)
El RLVR optimiza los modelos para tareas objetivas, como la generación de código o el razonamiento matemático, mediante calificadores o plantillas verificables basados en reglas. ready-to-use
Tiene dos opciones para el RLVR (código personalizado):
La consola Amazon Bedrock proporciona plantillas de muestra para las funciones Lambda de la niveladora:
-
Razonamiento matemático con verificación de la verdad fundamental
-
Validación de formatos y comprobación de restricciones
-
Plantilla Lambda genérica para grader con código repetitivo
Siga las instrucciones de la plantilla proporcionada en la página Crear trabajo de RFT de la consola de Amazon Bedrock
Cree funciones de recompensa personalizadas con su propio ARN de Lambda para cálculos lógicos complejos, externos APIs o de varios pasos, o para combinar varios criterios de evaluación.
nota
Si trae su propia función Lambda, tenga en cuenta lo siguiente:
-
Aumente el tiempo de espera de Lambda de 3 segundos por defecto a un máximo de 15 minutos para evaluaciones complejas.
-
La función de ejecución de Lambda necesita permisos para invocar modelos, tal y como se describe en. Acceso y seguridad para los modelos Amazon Nova
Aprendizaje reforzado a través de la retroalimentación de la IA (RLAIF)
El RLAIF optimiza los modelos para tareas subjetivas, como el seguimiento de instrucciones o las interacciones con los chatbots, utilizando jueces basados en la IA y con plantillas. ready-to-use
Para la RLAIF (Model as Judge):
-
Seleccione un modelo base hospedado en Amazon Bedrock como juez
-
Configure las instrucciones para la evaluación
-
Defina los criterios de evaluación y las pautas de puntuación
Plantillas LLM-as-Judge de mensajes disponibles en la consola Amazon Bedrock:
-
Instrucción siguiente (modelo de formación para jueces)
-
Resumen (diálogos de varios turnos)
-
Evaluación del razonamiento (CoT para dominios especializados)
-
Fidelidad RAG (preguntas y respuestas basadas en el contexto)
nota
La opción Model as Judge de la consola convierte automáticamente la configuración en una función Lambda durante el entrenamiento.
Detalles de implementación de la función Lambda
Al implementar funciones de recompensa de Lambda personalizadas, la función debe aceptar y devolver datos en el siguiente formato.
Directrices de diseño
Clasifique las respuestas: otorgue a la mejor respuesta una puntuación claramente más alta
Utilice controles consistentes: evalúe la finalización de las tareas, el cumplimiento del formato, la seguridad y la duración razonable
Mantenga una escala estable: mantenga las puntuaciones normalizadas y que no sean explotables