Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
L'évaluateur reflète et affine les modèles de boucles
Les tâches telles que la génération de code, la synthèse ou la prise de décision autonome bénéficient grandement du feedback d'exécution, permettant au système d'évoluer grâce à l'observation et au raffinement. Pour rendre cela opérationnel, le cycle reflète-affiner peut être mis en œuvre sous la forme d'une boucle de contrôle de rétroaction pilotée par les événements, un modèle inspiré de l'ingénierie des systèmes, adapté aux flux de travail autonomes et intelligents.
Le schéma suivant est un exemple de boucle de rétroaction basée sur l'affinement du reflet par un évaluateur :
Boucle de contrôle du feedback
Une boucle de contrôle par rétroaction est un modèle qui surveille ses propres sorties et comportements, les évalue par rapport à des critères définis ou à un état souhaité, puis ajuste ses actions en conséquence. Cette architecture s'inspire de la théorie du contrôle et est fondamentale dans des domaines tels que l'automatisation, les pipelines d'intégration continue et de livraison continue (CI/CD), ainsi que les opérations d'apprentissage automatique.
Le schéma suivant est un exemple de boucle de régulation de rétroaction :
-
Un pipeline de déploiement émet un événement BuildComplete.
-
L'événement déclenche un test ou une tâche d'évaluation automatique qui valide le build.
-
En cas d'échec de la validation (par exemple, en raison de l'échec des tests, de problèmes de sécurité ou d'une violation des règles), le système :
-
Émet un événement BuildComplete
-
Enregistre le problème ou envoie une notification
-
Déclenche une correction ou une action corrective, telle que l'annulation, l'application de correctifs ou une nouvelle tentative
-
La boucle continue jusqu'à ce qu'elle produise un résultat acceptable ou une escalade, ou jusqu'à ce qu'un délai d'attente se produise. Ce modèle est couramment utilisé dans les cas suivants :
-
EventBridge Règles Amazon pour acheminer les événements vers des tâches d'évaluation ou de correction
-
AWS Step Functions pour la logique itérative des nouvelles tentatives et le branchement sur les résultats de l'évaluation
-
Amazon Simple Notification Service (Amazon SNS) ou alarmes Amazon pour les CloudWatch déclencheurs de commentaires et les alertes
-
AWS Lambda fonctions ou travailleurs conteneurisés pour appliquer des mesures correctives
Boucle de régulation du feedback (évaluateur)
Un flux de travail d'évaluateur est une boucle de rétroaction cognitive alimentée par LLMs ou par des agents de raisonnement. Le processus comprend les étapes suivantes :
-
Un agent générateur ou LLM produit un résultat (par exemple, un plan, une réponse ou un brouillon).
-
Un agent évaluateur examine le résultat à l'aide d'une invite de critique ou d'une rubrique d'évaluation.
-
Sur la base des commentaires, l'agent d'origine ou un nouvel agent d'optimisation révise le résultat.
La boucle se répète jusqu'à ce que le résultat réponde à un ensemble de critères, soit approuvé ou atteigne une limite de nouvelles tentatives.
Évaluateur
-
Un utilisateur demande à un agent de rédiger un résumé de la politique.
-
L'agent générateur le rédige.
-
Un agent évaluateur vérifie la couverture, le ton et l'exactitude juridique.
-
Si la réponse est inadéquate, elle est affinée et soumise à nouveau jusqu'à ce que la boucle de rétroaction converge.
Cela permet une auto-évaluation, un raffinement itératif et un contrôle adaptatif des sorties, le tout sans intervention humaine.
Le schéma suivant est un exemple de boucle de régulation de rétroaction (évaluateur) :
-
Un utilisateur émet une tâche (par exemple, rédiger une stratégie commerciale).
-
Un agent Amazon Bedrock génère un brouillon initial à l'aide d'un LLM.
-
Un deuxième agent (ou une invite de suivi) effectue une évaluation structurée (par exemple, « évaluez ce résultat en fonction de sa clarté, de son exhaustivité et de son ton »).
-
Si la note tombe en dessous d'un seuil, la réponse est révisée comme suit :
-
Réinvoquer le générateur avec une critique intégrée
-
Envoi du feedback à un agent de raffinage spécialisé
-
Itérer jusqu'à ce qu'une réponse acceptable soit atteinte
-
Les composants optionnels tels que AWS Lambda les contrôleurs AWS Step Functions peuvent gérer les seuils de feedback, les nouvelles tentatives et les stratégies de repli.
Plats à emporter
Alors que les boucles de contrôle par rétroaction traditionnelles utilisent des événements, des métriques et une logique de correction pour valider et ajuster le comportement du système, les boucles d'évaluation agentic utilisent des agents de raisonnement pour évaluer, refléter et réviser les résultats de manière dynamique.
Dans les deux paradigmes :
-
La sortie est évaluée une fois qu'elle a été générée
-
Des actions correctives ou d'affinage sont déclenchées en fonction des commentaires
-
Le système s'adapte en permanence à une qualité ou à un objectif cible
La version agentic transforme la validation statique en réflexion sémantique, permettant aux agents de s'améliorer eux-mêmes d'évaluer leur propre efficacité.