Personalice un modelo con ajustes de refuerzo en Amazon Bedrock - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Personalice un modelo con ajustes de refuerzo en Amazon Bedrock

El ajuste fino de refuerzos es una técnica de personalización de modelos en Amazon Bedrock. Mejora el rendimiento del modelo básico al enseñarles a los modelos qué constituye una «buena» respuesta mediante señales de retroalimentación denominadas recompensas. Si bien los métodos de ajuste fino tradicionales dependen de conjuntos de datos etiquetados, el ajuste por refuerzo utiliza un enfoque basado en la retroalimentación. Esto permite que los modelos mejoren de forma iterativa en función de las señales de recompensa. En lugar de aprender de ejemplos fijos, utiliza funciones de recompensa para evaluar y juzgar qué respuestas se consideran adecuadas para determinados casos de uso empresarial.

El ajuste preciso por refuerzo enseña a los modelos a entender qué es lo que hace que una respuesta sea de calidad. No necesitas grandes cantidades de datos de entrenamiento preetiquetados. Esto hace que la personalización avanzada de modelos en Amazon Bedrock sea más accesible y rentable.

La capacidad admite dos enfoques para proporcionar flexibilidad a la hora de optimizar los modelos:

  • Aprendizaje reforzado con recompensas verificables (RLVR): utiliza calificadores basados en reglas para tareas objetivas como la generación de código o el razonamiento matemático

  • Aprendizaje reforzado a partir de la retroalimentación de la IA (RLAIF): utiliza jueces basados en la IA para tareas subjetivas, como el seguimiento de las instrucciones o la moderación del contenido

Para obtener más información, consulte Configuración de funciones de recompensa.

El ajuste preciso de los refuerzos puede ofrecer las siguientes ventajas:

  • Rendimiento mejorado del modelo: el ajuste fino del refuerzo mejora la precisión del modelo en comparación con los modelos básicos. Esto permite optimizar el precio y el rendimiento mediante el entrenamiento de variantes de modelos más pequeñas, rápidas y eficientes.

  • Datos de entrenamiento flexibles: Amazon Bedrock automatiza gran parte de la complejidad. Esto hace que los desarrolladores que crean aplicaciones de IA puedan realizar ajustes con refuerzos. Puede entrenar modelos fácilmente utilizando los registros de invocación de modelos de Amazon Bedrock existentes como datos de entrenamiento o cargar sus conjuntos de datos.

  • Seguridad y conformidad: sus datos privados nunca AWS abandonan el entorno seguro y gobernado durante el proceso de personalización.

Modelos compatibles para el ajuste fino de los refuerzos

En la siguiente tabla se muestran los modelos de cimentación que se pueden personalizar mediante el ajuste preciso de las armaduras:

Modelos compatibles para el ajuste fino de refuerzos
Proveedor Modelo ID del modelo Compatibilidad con modelos de una sola región
Amazon Nova 2 Lite amazon.nova-2-lite-v1:00:256 k us-east-1

Cómo funciona el ajuste fino de los refuerzos

Amazon Bedrock automatiza completamente el flujo de trabajo de RFT mediante un proceso de tres etapas:

Etapa 1: generación de respuestas

El modelo actor (el modelo que se está personalizando) recibe las indicaciones del conjunto de datos de entrenamiento y genera respuestas. De forma predeterminada, genera 4 respuestas por mensaje. Esta etapa admite interacciones de un solo giro y de varios turnos, lo que permite una cobertura integral de diferentes casos de uso.

Etapa 2: Cálculo de recompensas

Los pares de pronto-respuesta generados por el modelo actor se evalúan mediante los modelos de optimización seleccionados:

  • RLVR: ejecute a través de Lambda para calcular las puntuaciones objetivas

  • RLAIF: evalúe las respuestas en función de los criterios y principios que configure (la consola los convierte automáticamente en funciones Lambda)

Etapa 3: Entrenamiento de modelos de actores

Amazon Bedrock utiliza los pares de pronta respuesta con las puntuaciones para entrenar el modelo de actores mediante el aprendizaje basado en políticas mediante la optimización de políticas relativas grupales (GRPO). El ciclo de entrenamiento continúa de forma iterativa hasta que el modelo alcance las métricas de rendimiento deseadas o cumpla con los criterios de interrupción predefinidos.

Amazon Bedrock gestiona automáticamente el cálculo de recompensas en paralelo, la optimización del proceso de formación e implementa medidas de protección contra los desafíos más comunes del aprendizaje por refuerzo, como el hackeo de recompensas y el colapso de las políticas.