Evalúe su modelo RFT - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Evalúe su modelo RFT

Una vez que el trabajo de ajuste de los refuerzos haya finalizado satisfactoriamente, puede evaluar el rendimiento de su modelo personalizado mediante varios métodos de evaluación. Amazon Bedrock proporciona herramientas de evaluación integradas que le ayudan a comparar su modelo de RFT con el modelo base y a validar las mejoras.

Métodos de evaluación

Amazon Bedrock ofrece varias formas de evaluar el rendimiento de su modelo RFT.

Métricas de validación

Si subes un conjunto de datos de validación, verás dos gráficos adicionales en las métricas de entrenamiento.

  • Recompensas de validación: muestran qué tan bien se generaliza tu modelo más allá de los ejemplos de entrenamiento. Es normal y esperado obtener puntuaciones más bajas que las recompensas por entrenamiento.

  • Duración de los episodios de validación: duración media de la respuesta a partir de datos de validación invisibles. Muestra la eficacia con la que el modelo responde a las nuevas entradas en comparación con los ejemplos de entrenamiento.

Realice la prueba en Playground

Usa la función Test in Playground para realizar evaluaciones rápidas y específicas. Para utilizar la función Test in Playground, es necesario configurar la inferencia. Para obtener más información, consulte Configuración de la inferencia para la evaluación.

Esta herramienta interactiva le permite:

  • Pruebe las indicaciones directamente con su modelo RFT

  • Compare las respuestas side-by-side entre su modelo personalizado y el modelo base

  • Evalúe las mejoras en la calidad de respuesta en tiempo real

  • Experimente con diferentes indicaciones para evaluar las capacidades del modelo

Evaluación del modelo Bedrock

Utilice la evaluación de modelos de Amazon Bedrock para evaluar su modelo de RFT con sus propios conjuntos de datos. Esto proporciona un análisis de rendimiento integral con métricas y puntos de referencia estandarizados. Estos son algunos ejemplos de las ventajas de la evaluación del modelo Amazon Bedrock.

  • Evaluación sistemática mediante conjuntos de datos de prueba personalizados

  • Comparaciones de rendimiento cuantitativo

  • Métricas estandarizadas para una evaluación coherente

  • Integración con los flujos de trabajo de evaluación existentes de Amazon Bedrock

Configuración de la inferencia para la evaluación

Antes de evaluar el modelo de RFT, configure la inferencia mediante una de estas opciones:

Inferencia bajo demanda

Cree una implementación a pedido de un modelo personalizado para una evaluación flexible. pay-per-use Esta opción incluye precios basados en fichas, que se cobran en función de la cantidad de fichas procesadas durante la inferencia.

Mejores prácticas de evaluación

  • Compare sistemáticamente: evalúe siempre su modelo de RFT con el modelo base utilizando las mismas instrucciones de prueba y los mismos criterios de evaluación.

  • Utilice diversos casos de prueba: incluya varios tipos de solicitudes y escenarios que representen sus casos de uso reales.

  • Valide la alineación de las recompensas: asegúrese de que las mejoras de su modelo se ajusten a las funciones de recompensa utilizadas durante el entrenamiento.

  • Pruebe casos límite: evalúe el comportamiento del modelo en función de entradas desafiantes o inusuales para evaluar su solidez.

  • Supervise la coherencia de las respuestas: compruebe que el modelo ofrezca una calidad uniforme en varias ejecuciones con indicaciones similares.