Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Prepara tus datos de entrenamiento y funciones de recompensa para ajustar los refuerzos
Para crear un trabajo de ajuste preciso de los refuerzos, se necesitan datos de entrenamiento y funciones de recompensa que evalúen la calidad de la respuesta. A diferencia del ajuste fino tradicional, que requiere pares de entradas y salidas, la RFT utiliza indicaciones y señales de recompensa para guiar el aprendizaje de los modelos.
Puede utilizar los registros de invocación de la API de Amazon Bedrock existentes como datos de entrenamiento o cargar nuevos conjuntos de datos. Las funciones de recompensa definen lo que constituye una buena respuesta y pueden utilizar la verificación basada en reglas (RLVR) o el juicio basado en la IA (RLAIF).
importante
Puede enviar un máximo de 20 000 solicitudes a Amazon Bedrock para reforzar y ajustar el modelo.