Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Configuración de funciones de recompensa
Las funciones de recompensa evalúan la calidad de la respuesta y proporcionan señales de retroalimentación para el entrenamiento del modelo. Elija el enfoque que se adapte a los requisitos de su tarea.
Refuerce el aprendizaje mediante recompensas verificables (RLVR)
El RLVR le permite optimizar los modelos para tareas objetivas, como la generación de código o el razonamiento matemático. Puede definir las funciones de recompensa mediante calificadores verificables basados en reglas o usar ready-to-use plantillas para casos de uso comunes, como las comprobaciones de formato, los resúmenes y la similitud de textos.
Tiene dos opciones para el RLVR (código personalizado):
-
Utilice plantillas proporcionadas por la consola: la consola de Amazon Bedrock proporciona plantillas de ejemplo para las funciones Lambda de la clasificadora:
-
Razonamiento matemático con verificación de la verdad fundamental
-
Validación de formatos y comprobación de restricciones
-
Plantilla Lambda genérica de gradadora con código repetitivo para la función Lambda de la gradora
Antes de configurar la función Lambda, siga las instrucciones de la plantilla proporcionada en la página Create RFT de la consola de Amazon
Bedrock. -
-
Cree su propia función Lambda: cree funciones de recompensa personalizadas ejecutadas a través de funciones Lambda con su propio ARN de Lambda. Puede combinar varios calificadores para producir una sola partitura.
Aprendizaje reforzado mediante comentarios de IA (RLAIF)
El RLAIF permite la optimización de tareas subjetivas, como el seguimiento de instrucciones o las interacciones con los chatbots. Puede utilizar jueces basados en la IA con ready-to-use plantillas para casos de uso común a fin de evaluar la calidad de las respuestas en función de los criterios que defina.
Para la RLAIF (Model as Judge):
-
Seleccione un modelo base hospedado en Amazon Bedrock como juez
-
Configure las instrucciones para la evaluación
-
Defina los criterios de evaluación y las pautas de puntuación
Puede utilizar las plantillas de LLM-as-Judge mensajes que se proporcionan en la consola de Amazon Bedrock:
-
Instrucción siguiente (formación modelo para jueces)
-
Resumen (diálogos de varios turnos)
-
Evaluación del razonamiento (CoT para dominios especializados)
-
Fidelidad RAG (preguntas y respuestas basadas en el contexto)
nota
-
Al utilizar la opción Model as Judge de la consola, Amazon Bedrock convierte automáticamente la configuración en una función Lambda que se ejecuta durante el entrenamiento.
-
Si trae su propia función de Lambda, la función de ejecución de Lambda necesita los permisos necesarios para invocar modelos con un ID de modelo o un perfil de inferencia, tal y como se describe en. Permisos de la función Lambda de Grader para RLAIF