Cas d’utilisation courants Fonctionnalités

Flux de travail pour les évaluateurs et boucles d'affinage par réflexion

Ce flux de travail fournit une boucle de rétroaction dans laquelle un LLM génère un résultat et un autre évalue ou critique le résultat. Cela favorise l'autoréflexion, l'optimisation et les améliorations itératives.

Le flux de travail de l'évaluateur est idéal pour les scénarios dans lesquels la qualité, la précision et l'alignement des résultats sont importants et dans lesquels la génération en un seul passage est peu fiable ou insuffisante. Ce flux de travail excelle lorsque les agents doivent s'autocritiquer, itérer et affiner leurs résultats, soit pour répondre à des normes d'exactitude plus élevées, soit pour explorer des alternatives améliorées en fonction des commentaires.

Ce flux de travail est particulièrement efficace lorsque :

Le résultat implique des mesures de qualité subjectives (par exemple, le style, le ton et la lisibilité) ou des critères objectifs (par exemple, exactitude, sécurité et performance).
L'agent doit raisonner en faisant des compromis, évaluer les contraintes ou optimiser pour atteindre un objectif.
Vous avez besoin d'une redondance et d'une assurance qualité intégrées, en particulier dans les domaines réglementés, destinés aux clients ou créatifs.
Human-in-the-loop la révision coûte cher ou n'est pas disponible, et une validation autonome est souhaitée.

Ce flux de travail est utilisé pour la génération de contenu, la synthèse et la révision du code, l'application des politiques, le contrôle de l'alignement, le réglage des instructions et le post-traitement RAG. Il est également utile pour les agents qui s'améliorent eux-mêmes, où le feedback continu contribue à façonner de meilleures réponses au fil du temps afin de créer des boucles de décision fiables et autonomes.

Cas d’utilisation courants

Comparaison des agents de l'équipe rouge aux agents de l'équipe bleue
Agents qui génèrent, évaluent et révisent le code ou les plans
Assurance qualité, détection des hallucinations et application du style

Fonctionnalités

Supporte la génération et l'évaluation découplées à l'aide de différents modèles (par exemple, Claude pour la génération et Mistral pour l'évaluation)
Les commentaires sont structurés et utilisés pour demander des résultats révisés
Supporte plusieurs itérations ou seuils de convergence

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Flux de travail pour l'orchestration

Conclusion