Refuerce el aprendizaje mediante recompensas verificables (RLVR)Aprendizaje reforzado a través de la retroalimentación de la IA (RLAIF)Detalles de implementación de la función Lambda

Configuración de funciones de recompensa para los modelos Amazon Nova

Las funciones de recompensa evalúan la calidad de la respuesta y proporcionan señales de retroalimentación para el entrenamiento del modelo. Puede configurar las funciones de recompensa utilizando funciones Lambda personalizadas o modelos básicos alojados en Amazon Bedrock como jueces. Hay disponibles plantillas guiadas para simplificar la creación de funciones de recompensa para tareas comunes, como el seguimiento de las instrucciones y la validación del formato. Elija el enfoque que se adapte a los requisitos de su tarea.

Refuerce el aprendizaje mediante recompensas verificables (RLVR)

El RLVR optimiza los modelos para tareas objetivas, como la generación de código o el razonamiento matemático, mediante calificadores o plantillas verificables basados en reglas. ready-to-use

Tiene dos opciones para el RLVR (código personalizado):

La consola Amazon Bedrock proporciona plantillas de muestra para las funciones Lambda de la niveladora:

Razonamiento matemático con verificación de la verdad fundamental
Validación de formatos y comprobación de restricciones
Plantilla Lambda genérica para grader con código repetitivo

Siga las instrucciones de la plantilla proporcionada en la página Crear trabajo de RFT de la consola de Amazon Bedrock.

Cree funciones de recompensa personalizadas con su propio ARN de Lambda para cálculos lógicos complejos, externos APIs o de varios pasos, o para combinar varios criterios de evaluación.

nota

Si trae su propia función Lambda, tenga en cuenta lo siguiente:

Aumente el tiempo de espera de Lambda de 3 segundos por defecto a un máximo de 15 minutos para evaluaciones complejas.
La función de ejecución de Lambda necesita permisos para invocar modelos, tal y como se describe en. Acceso y seguridad para los modelos Amazon Nova

Aprendizaje reforzado a través de la retroalimentación de la IA (RLAIF)

El RLAIF optimiza los modelos para tareas subjetivas, como el seguimiento de instrucciones o las interacciones con los chatbots, utilizando jueces basados en la IA y con plantillas. ready-to-use

Para la RLAIF (Model as Judge):

Seleccione un modelo base hospedado en Amazon Bedrock como juez
Configure las instrucciones para la evaluación
Defina los criterios de evaluación y las pautas de puntuación

Plantillas LLM-as-Judge de mensajes disponibles en la consola Amazon Bedrock:

Instrucción siguiente (modelo de formación para jueces)
Resumen (diálogos de varios turnos)
Evaluación del razonamiento (CoT para dominios especializados)
Fidelidad RAG (preguntas y respuestas basadas en el contexto)

nota

La opción Model as Judge de la consola convierte automáticamente la configuración en una función Lambda durante el entrenamiento.

Detalles de implementación de la función Lambda

Al implementar funciones de recompensa de Lambda personalizadas, la función debe aceptar y devolver datos en el siguiente formato.

Directrices de diseño

Clasifique las respuestas: otorgue a la mejor respuesta una puntuación claramente más alta
Utilice controles consistentes: evalúe la finalización de las tareas, el cumplimiento del formato, la seguridad y la duración razonable
Mantenga una escala estable: mantenga las puntuaciones normalizadas y que no sean explotables

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Preparación de los datos

Cree trabajos de ajuste preciso