Flujo de trabajo para evaluadores y ciclos de reflexión y refinamiento

Este flujo de trabajo proporciona un circuito de retroalimentación en el que un LLM genera un resultado y otro evalúa o critica el resultado. Esto promueve la autorreflexión, la optimización y las mejoras iterativas.

El flujo de trabajo del evaluador es ideal para escenarios en los que la calidad, la precisión y la alineación de los resultados son importantes y en los que la generación de una sola pasada no es fiable o insuficiente. Este flujo de trabajo destaca cuando los agentes deben autocriticarse, repetir y refinar sus resultados, ya sea para cumplir con un estándar más alto de corrección o para explorar alternativas mejoradas en función de los comentarios.

Este flujo de trabajo es particularmente eficaz cuando:

El resultado incluye métricas de calidad subjetivas (por ejemplo, estilo, tono y legibilidad) o criterios objetivos (por ejemplo, corrección, seguridad y rendimiento).
El agente debe razonar haciendo concesiones, evaluar las limitaciones u optimizar la búsqueda de una meta.
Necesita redundancia y garantía de calidad integradas, especialmente en los ámbitos regulados, orientados al cliente o creativos.
Human-in-the-loop la revisión es cara o no está disponible, y se desea una validación autónoma.

Este flujo de trabajo se utiliza para la generación de contenido, la síntesis y revisión del código, la aplicación de políticas, la comprobación de la alineación, el ajuste de las instrucciones y el posprocesamiento del RAG. También es útil para los agentes que se mejoran a sí mismos, ya que la retroalimentación continua ayuda a dar forma a mejores respuestas a lo largo del tiempo para crear ciclos de decisión autónomos y confiables.

Casos de uso comunes

Los agentes del equipo rojo se comparan con los del equipo azul
Agentes que generan, evalúan y revisan códigos o planes
Control de calidad, detección de alucinaciones y control del estilo

Capacidades

Soporta la generación y la evaluación disociadas utilizando diferentes modelos (por ejemplo, Claude para la generación y Mistral para la evaluación)
La retroalimentación está estructurada y se utiliza para generar resultados revisados
Soporta múltiples iteraciones o umbrales de convergencia

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Flujo de trabajo para la orquestación

Conclusión