Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Reinforcement Fine-Tune-Tuning (RFT) en Amazon SageMaker HyperPod
El ajuste preciso por refuerzo (RFT) es una técnica de aprendizaje automático que mejora el rendimiento del modelo mediante señales de retroalimentación (puntuaciones medibles o recompensas que indican la calidad de la respuesta) en lugar de una supervisión directa con respuestas exactas y correctas. A diferencia del ajuste preciso supervisado tradicional, que aprende de los pares de entradas y salidas, la RFT utiliza funciones de recompensa para evaluar las respuestas del modelo y optimiza el modelo de forma iterativa para maximizar estas recompensas.
Este enfoque es particularmente eficaz para tareas en las que es difícil definir el resultado exacto y correcto, pero se puede medir de forma fiable la calidad de la respuesta. La RFT permite a los modelos aprender comportamientos y preferencias complejos mediante pruebas y comentarios, lo que la hace ideal para aplicaciones que requieren una toma de decisiones matizada, una resolución creativa de problemas o el cumplimiento de criterios de calidad específicos que pueden evaluarse mediante programación.
¿Cuándo usar la RFT
Utilice la RFT cuando pueda definir criterios de éxito claros y mensurables, pero tenga dificultades para proporcionar resultados exactos y correctos para la formación. Es ideal para tareas en las que la calidad es subjetiva o multifacética, como la redacción creativa, la optimización del código o el razonamiento complejo, en las que existen varias soluciones válidas, pero algunas son claramente mejores que otras.
La RFT funciona mejor cuando se cuenta con lo siguiente:
-
Una función de recompensa fiable que puede evaluar los resultados del modelo mediante programación
-
¿Necesita alinear el comportamiento del modelo con preferencias o restricciones específicas
-
Situaciones en las que el ajuste supervisado tradicional no es suficiente porque recopilar ejemplos etiquetados de alta calidad es caro o poco práctico
Considere la RFT para las aplicaciones que requieren mejoras iterativas, personalización o el cumplimiento de reglas empresariales complejas que pueden codificarse como señales de recompensa.
¿Para qué es más adecuada la RFT
La RFT sobresale en ámbitos en los que la calidad de los resultados se puede medir objetivamente, pero las respuestas óptimas son difíciles de definir por adelantado:
-
Resolución de problemas matemáticos: precisión verificable con múltiples rutas de solución
-
Generación y optimización de código: resultados de ejecución y métricas de rendimiento comprobables
-
Tareas de razonamiento científico: coherencia lógica y precisión fáctica
-
Análisis de datos estructurados: resultados verificables mediante programación
-
Razonamiento de varios pasos: tareas que requieren una progresión lógica step-by-step
-
Uso de herramientas y llamadas a la API: el éxito se puede medir en función de los resultados de ejecución
-
Flujos de trabajo complejos: cumplimiento de restricciones y normas empresariales específicas
La RFT funciona excepcionalmente bien cuando se necesita equilibrar varios objetivos contrapuestos, como la precisión, la eficiencia y el estilo.
¿Cuándo usar el modo de razonamiento para el entrenamiento con RFT
Amazon Nova 2.0 admite el modo de razonamiento durante el entrenamiento con RFT. Están disponibles los siguientes modos:
-
ninguno: Sin razonamiento (omita el campo reasoning_effort)
-
Bajo: sobrecarga de razonamiento mínima
-
alto: capacidad máxima de razonamiento (por defecto cuando se especifica reasoning_effort)
nota
No hay una opción media para la RFT. Si el campo reasoning_effort no está en la configuración, el razonamiento está deshabilitado.
Utilice un razonamiento elevado para lo siguiente:
-
Tareas analíticas complejas
-
Resolución de problemas matemáticos
-
Deducción lógica en varios pasos
-
Tareas en las que step-by-step pensar aporta valor
Utilice ninguno (omita reasoning_effort) o razonamiento bajo para lo siguiente:
-
Consultas fácticas simples
-
Clasificaciones directas
-
Optimización de velocidad y costes
-
Preguntas y respuestas sencillas
importante
Los modos de razonamiento superior aumentan el tiempo y el coste del entrenamiento, la latencia y el coste de las inferencias, pero también aumentan la capacidad del modelo para tareas de razonamiento complejas.
Modelos compatibles
RFT on SageMaker HyperPod es compatible con Amazon Nova Lite 2.0 (amazon.nova-2-lite-v 1:0:256 k).
Pasos principales
El proceso de RFT consta de cuatro fases clave:
-
Implementación de un evaluador: cree una función de recompensa para calificar programáticamente las respuestas del modelo en función de sus criterios de calidad.
-
Carga de instrucciones: prepare y cargue los datos de entrenamiento en el formato conversacional especificado con datos de referencia para su evaluación.
-
Inicio de un trabajo: inicie el proceso de ajuste del refuerzo con los parámetros configurados.
-
Supervisión: realice un seguimiento del progreso de la formación a través de paneles de métricas para garantizar que el modelo aprenda de forma eficaz.
Cada paso se basa en el anterior, y el evaluador es la base que guía todo el proceso de formación al proporcionar señales de retroalimentación consistentes.