Architecture Description Fonctionnalités Cas d’utilisation courants Directives d’implémentation Résumé

Agents à usage informatique

Les agents informatiques peuvent simuler ou contrôler des environnements numériques tels que les navigateurs, les terminaux, les systèmes de fichiers et les applications. Ces agents interprètent l'intention de l'utilisateur, interagissent avec les interfaces visuelles et textuelles et exécutent des actions ciblées en combinant le raisonnement LLM, les modèles de langage visuel (VLMs) et les serveurs d'outils qui exécutent des commandes ou simulent des événements d'entrée.

Ce modèle est important pour les automatisations pratiques de l'IA, où l'agent fonctionne non seulement comme un assistant, mais également comme un proxy qui exécute des actions comme le ferait un humain, souvent en utilisant les mêmes outils et environnements.

Architecture

Un modèle d'agent utilisé par ordinateur est illustré dans le schéma suivant :

Description

Reçoit une requête
- Une tâche ou une demande est fournie via une interface utilisateur, une API ou une interface en langage naturel.
Accède à la mémoire
- L'agent récupère la mémoire à court et à long terme pour se souvenir des commandes passées, des objectifs et des états du système.
Analyse le contexte visuel
- Un VLM observe l'écran de l'ordinateur, l'état du système ou les éléments de l'interface utilisateur pour comprendre un contexte donné et identifier les éléments exploitables.
Raisons grâce à un LLM
- Le LLM combine la requête, l'état de la mémoire, l'outil et la réponse du serveur pour déterminer l'action suivante.
Interagit avec le serveur d'outils
- L'agent invoque des outils hébergés sur un serveur, notamment les suivants :
  - Navigateurs (Chrome sans en-tête, par exemple) et environnements shell
  - Éditeurs de texte et de code
  - Interfaces de script personnalisées
Met à jour les entrées visuelles
- Si l'interface utilisateur du système change ou si une observation supplémentaire est nécessaire, le VLM peut réanalyser l'état de l'écran ou les tampons de texte.
Actualise la mémoire
- Les nouvelles informations, l'état du système ou les commentaires des utilisateurs sont enregistrés dans la mémoire à court et à long terme.
Formulation des décisions finales et des explications
- Le LLM synthétise les résultats ou recommande des actions en fonction de la requête et des résultats de l'outil.
Renvoie une réponse
- L'agent renvoie les résultats à l'interface (par exemple, une tâche terminée, une confirmation ou du contenu généré).

Fonctionnalités

Raisonnement multimodal avec entrées visuelles et textuelles
Contrôle des applications via des entrées simulées ou pilotées par API
Gestion de la mémoire pour un état persistant
Autonomie dans l'exécution séquentielle (flux en plusieurs étapes)

Cas d’utilisation courants

Développeurs d'IA qui écrivent et exécutent du code dans IDEs
Agents informatiques pour les flux de travail numériques répétitifs
Utilisateurs simulés pour les tests de logiciels et l'assurance qualité
Agents d'accessibilité pour naviguer UIs via des instructions vocales ou de haut niveau
Automatisation robotique intelligente des processus (RPA) améliorée par le raisonnement

Directives d’implémentation

Vous pouvez créer ce modèle en utilisant ce qui suit Services AWS :
Amazon Bedrock pour la planification et le raisonnement basés sur le LLM
Amazon Elastic Compute Cloud (Amazon EC2) ou ordinateurs portables SageMaker Amazon pour exécuter AWS Lambda des serveurs d'outils avec des environnements d'interface utilisateur simulés
Amazon Simple Storage Service (Amazon S3) ou Amazon DynamoDB pour la persistance de la mémoire
Amazon Rekognition (ou modèles personnalisés) pour l'analyse d'images d'interface utilisateur dans des scénarios hybrides
Amazon CloudWatch Logs ou AWS X-Ray pour l'observabilité et les pistes d'audit

Résumé

Les agents informatiques agissent comme des opérateurs numériques autonomes, comblant le fossé entre les interactions homme-machine et les actions pilotées par l'IA. En incorporant de la mémoire, en orchestrant les outils VLMs, ces agents peuvent interagir de manière adaptative avec des systèmes conçus pour les humains, exécuter des actions, mettre à jour des fichiers, naviguer dans les menus et générer des réponses.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Agents basés sur des outils pour serveurs

Agents de codage