Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Agents à usage informatique
Les agents informatiques peuvent simuler ou contrôler des environnements numériques tels que les navigateurs, les terminaux, les systèmes de fichiers et les applications. Ces agents interprètent l'intention de l'utilisateur, interagissent avec les interfaces visuelles et textuelles et exécutent des actions ciblées en combinant le raisonnement LLM, les modèles de langage visuel (VLMs) et les serveurs d'outils qui exécutent des commandes ou simulent des événements d'entrée.
Ce modèle est important pour les automatisations pratiques de l'IA, où l'agent fonctionne non seulement comme un assistant, mais également comme un proxy qui exécute des actions comme le ferait un humain, souvent en utilisant les mêmes outils et environnements.
Architecture
Un modèle d'agent utilisé par ordinateur est illustré dans le schéma suivant :
Description
-
Reçoit une requête
-
Une tâche ou une demande est fournie via une interface utilisateur, une API ou une interface en langage naturel.
-
-
Accède à la mémoire
-
L'agent récupère la mémoire à court et à long terme pour se souvenir des commandes passées, des objectifs et des états du système.
-
-
Analyse le contexte visuel
-
Un VLM observe l'écran de l'ordinateur, l'état du système ou les éléments de l'interface utilisateur pour comprendre un contexte donné et identifier les éléments exploitables.
-
-
Raisons grâce à un LLM
-
Le LLM combine la requête, l'état de la mémoire, l'outil et la réponse du serveur pour déterminer l'action suivante.
-
-
Interagit avec le serveur d'outils
-
L'agent invoque des outils hébergés sur un serveur, notamment les suivants :
-
Navigateurs (Chrome sans en-tête, par exemple) et environnements shell
-
Éditeurs de texte et de code
-
Interfaces de script personnalisées
-
-
-
Met à jour les entrées visuelles
-
Si l'interface utilisateur du système change ou si une observation supplémentaire est nécessaire, le VLM peut réanalyser l'état de l'écran ou les tampons de texte.
-
-
Actualise la mémoire
-
Les nouvelles informations, l'état du système ou les commentaires des utilisateurs sont enregistrés dans la mémoire à court et à long terme.
-
-
Formulation des décisions finales et des explications
-
Le LLM synthétise les résultats ou recommande des actions en fonction de la requête et des résultats de l'outil.
-
-
Renvoie une réponse
-
L'agent renvoie les résultats à l'interface (par exemple, une tâche terminée, une confirmation ou du contenu généré).
-
Fonctionnalités
-
Raisonnement multimodal avec entrées visuelles et textuelles
-
Contrôle des applications via des entrées simulées ou pilotées par API
-
Gestion de la mémoire pour un état persistant
-
Autonomie dans l'exécution séquentielle (flux en plusieurs étapes)
Cas d’utilisation courants
-
Développeurs d'IA qui écrivent et exécutent du code dans IDEs
-
Agents informatiques pour les flux de travail numériques répétitifs
-
Utilisateurs simulés pour les tests de logiciels et l'assurance qualité
-
Agents d'accessibilité pour naviguer UIs via des instructions vocales ou de haut niveau
-
Automatisation robotique intelligente des processus (RPA) améliorée par le raisonnement
Directives d’implémentation
-
Vous pouvez créer ce modèle en utilisant ce qui suit Services AWS :
-
Amazon Bedrock pour la planification et le raisonnement basés sur le LLM
-
Amazon Elastic Compute Cloud (Amazon EC2) ou SageMaker ordinateurs portables Amazon pour exécuter des serveurs d'outils avec des environnements d'interface utilisateur simulés AWS Lambda
-
Amazon Simple Storage Service (Amazon S3) ou Amazon DynamoDB pour la persistance de la mémoire
-
Amazon Rekognition (ou modèles personnalisés) pour l'analyse d'images d'interface utilisateur dans des scénarios hybrides
-
Amazon CloudWatch Logs ou AWS X-Ray pour l'observabilité et les pistes d'audit
Résumé
Les agents informatiques agissent comme des opérateurs numériques autonomes, comblant le fossé entre les interactions homme-machine et les actions pilotées par l'IA. En incorporant de la mémoire, en orchestrant les outils VLMs, ces agents peuvent interagir de manière adaptative avec des systèmes conçus pour les humains, exécuter des actions, mettre à jour des fichiers, naviguer dans les menus et générer des réponses.