Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Flux de travail pour les évaluateurs et boucles d'affinage par réflexion
Ce flux de travail fournit une boucle de rétroaction dans laquelle un LLM génère un résultat et un autre évalue ou critique le résultat. Cela favorise l'autoréflexion, l'optimisation et les améliorations itératives.
Le flux de travail de l'évaluateur est idéal pour les scénarios dans lesquels la qualité, la précision et l'alignement des résultats sont importants et dans lesquels la génération en un seul passage est peu fiable ou insuffisante. Ce flux de travail excelle lorsque les agents doivent s'autocritiquer, itérer et affiner leurs résultats, soit pour répondre à des normes d'exactitude plus élevées, soit pour explorer des alternatives améliorées en fonction des commentaires.
Ce flux de travail est particulièrement efficace lorsque :
-
Le résultat implique des mesures de qualité subjectives (par exemple, le style, le ton et la lisibilité) ou des critères objectifs (par exemple, exactitude, sécurité et performance).
-
L'agent doit raisonner en faisant des compromis, évaluer les contraintes ou optimiser pour atteindre un objectif.
-
Vous avez besoin d'une redondance et d'une assurance qualité intégrées, en particulier dans les domaines réglementés, destinés aux clients ou créatifs.
-
Human-in-the-loop la révision coûte cher ou n'est pas disponible, et une validation autonome est souhaitée.
Ce flux de travail est utilisé pour la génération de contenu, la synthèse et la révision du code, l'application des politiques, le contrôle de l'alignement, le réglage des instructions et le post-traitement RAG. Il est également utile pour les agents qui s'améliorent eux-mêmes, où le feedback continu contribue à façonner de meilleures réponses au fil du temps afin de créer des boucles de décision fiables et autonomes.
Cas d’utilisation courants
-
Comparaison des agents de l'équipe rouge aux agents de l'équipe bleue
-
Agents qui génèrent, évaluent et révisent le code ou les plans
-
Assurance qualité, détection des hallucinations et application du style
Fonctionnalités
-
Supporte la génération et l'évaluation découplées à l'aide de différents modèles (par exemple, Claude pour la génération et Mistral pour l'évaluation)
-
Les commentaires sont structurés et utilisés pour demander des résultats révisés
-
Supporte plusieurs itérations ou seuils de convergence