View a markdown version of this page

Flujo de trabajo para evaluadores y ciclos de reflexión y refinamiento - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Flujo de trabajo para evaluadores y ciclos de reflexión y refinamiento

Este flujo de trabajo proporciona un circuito de retroalimentación en el que un LLM genera un resultado y otro evalúa o critica el resultado. Esto promueve la autorreflexión, la optimización y las mejoras iterativas.

Flujo de trabajo para el evaluador.

El flujo de trabajo del evaluador es ideal para escenarios en los que la calidad, la precisión y la alineación de los resultados son importantes y en los que la generación de una sola pasada no es fiable o insuficiente. Este flujo de trabajo destaca cuando los agentes deben autocriticarse, repetir y refinar sus resultados, ya sea para cumplir con un estándar más alto de corrección o para explorar alternativas mejoradas en función de los comentarios.

Este flujo de trabajo es particularmente eficaz cuando:

  • El resultado incluye métricas de calidad subjetivas (por ejemplo, estilo, tono y legibilidad) o criterios objetivos (por ejemplo, corrección, seguridad y rendimiento).

  • El agente debe razonar haciendo concesiones, evaluar las limitaciones u optimizar la búsqueda de una meta.

  • Necesita redundancia y garantía de calidad integradas, especialmente en los ámbitos regulados, orientados al cliente o creativos.

  • Human-in-the-loop la revisión es cara o no está disponible, y se desea una validación autónoma.

Este flujo de trabajo se utiliza para la generación de contenido, la síntesis y revisión del código, la aplicación de políticas, la comprobación de la alineación, el ajuste de las instrucciones y el posprocesamiento del RAG. También es útil para los agentes que se mejoran a sí mismos, ya que la retroalimentación continua ayuda a dar forma a mejores respuestas a lo largo del tiempo para crear ciclos de decisión autónomos y confiables.

Casos de uso comunes

  • Los agentes del equipo rojo se comparan con los del equipo azul

  • Agentes que generan, evalúan y revisan códigos o planes

  • Control de calidad, detección de alucinaciones y control del estilo

Capacidades

  • Soporta la generación y la evaluación disociadas utilizando diferentes modelos (por ejemplo, Claude para la generación y Mistral para la evaluación)

  • La retroalimentación está estructurada y se utiliza para generar resultados revisados

  • Soporta múltiples iteraciones o umbrales de convergencia