Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Agentes de uso informático
Los agentes que utilizan ordenadores pueden simular o controlar entornos digitales, como navegadores, terminales, sistemas de archivos y aplicaciones. Estos agentes interpretan la intención del usuario, interactúan con las interfaces visuales y de texto y realizan acciones orientadas a objetivos mediante la combinación del razonamiento LLM, los modelos de lenguaje visual (VLMs) y los servidores de herramientas que ejecutan comandos o simulan eventos de entrada.
Este patrón es importante para las automatizaciones prácticas de IA, en las que el agente funciona no solo como asistente, sino también como un proxy que realiza acciones como lo haría un humano, a menudo utilizando las mismas herramientas y entornos.
Arquitectura
En el siguiente diagrama se muestra un patrón de agentes que utilizan ordenadores:
Description (Descripción)
-
Recibe una consulta
-
Una tarea o solicitud se proporciona a través de una interfaz de usuario, API o lenguaje natural.
-
-
Accede a la memoria
-
El agente recupera la memoria a corto y largo plazo para recordar órdenes, objetivos y estados del sistema anteriores.
-
-
Analiza el contexto visual
-
Un VLM observa la pantalla de la computadora, el estado del sistema o los elementos de la interfaz de usuario para comprender un contexto determinado e identificar los elementos procesables.
-
-
Razones a través de un LLM
-
El LLM combina la consulta, el estado de la memoria, la herramienta y la respuesta del servidor para determinar la siguiente acción.
-
-
Interactúa con el servidor de herramientas
-
El agente invoca herramientas que están alojadas en un servidor, entre las que se incluyen las siguientes:
-
Navegadores (por ejemplo, Headless Chrome) y entornos de shell
-
Editores de texto y código
-
Interfaces de script personalizadas
-
-
-
Actualiza las entradas visuales
-
Si la interfaz de usuario del sistema cambia o es necesario realizar más observaciones, el VLM puede volver a analizar el estado de la pantalla o los búferes de texto.
-
-
Actualiza la memoria
-
Los nuevos conocimientos, los estados del sistema o los comentarios de los usuarios se graban en la memoria a corto y largo plazo.
-
-
Formula las decisiones y explicaciones finales
-
El LLM sintetiza los resultados o recomienda acciones en función de la consulta y el resultado de la herramienta.
-
-
Devuelve una respuesta
-
El agente devuelve los resultados a la interfaz (por ejemplo, una tarea completada, una confirmación o un contenido generado).
-
Capacidades
-
Razonamiento multimodal con entradas visuales y textuales
-
Control de las aplicaciones mediante entradas simuladas o impulsadas por API
-
Administración de memoria para un estado persistente
-
Autonomía en la ejecución secuencial (flujos de varios pasos)
Casos de uso comunes
-
Desarrolladores de IA que escriben y ejecutan código en IDEs
-
Agentes de uso informático para flujos de trabajo digitales repetitivos
-
Usuarios simulados para pruebas de software y control de calidad
-
Agentes de accesibilidad para navegar UIs mediante instrucciones de voz o de alto nivel
-
Automatización robótica inteligente de procesos (RPA) que se mejora con el razonamiento
Guía para la implementación
-
Puede crear este patrón con lo siguiente: Servicios de AWS
-
Amazon Bedrock para una planificación y un razonamiento basados en LLM
-
Amazon Elastic Compute Cloud (Amazon EC2) o Amazon SageMaker notebooks para ejecutar servidores de herramientas con entornos de interfaz de usuario simulados AWS Lambda
-
Amazon Simple Storage Service (Amazon S3) o Amazon DynamoDB para la persistencia de la memoria
-
Amazon Rekognition (o modelos personalizados) para el análisis de imágenes de interfaz de usuario en escenarios híbridos
-
Amazon CloudWatch Logs o AWS X-Ray para registros de observabilidad y auditoría
Resumen
Los agentes que utilizan ordenadores actúan como operadores digitales autónomos, cerrando la brecha entre las interacciones entre humanos y ordenadores y las acciones impulsadas por la IA. Al incorporar memoria, orquestar herramientas y VLMs, estos agentes pueden interactuar de forma adaptativa con sistemas diseñados para humanos, ejecutar acciones, actualizar archivos, navegar por los menús y generar respuestas.