Arquitectura Description (Descripción)Capacidades Casos de uso comunes Guía para la implementación Resumen

Agentes de uso informático

Los agentes que utilizan ordenadores pueden simular o controlar entornos digitales, como navegadores, terminales, sistemas de archivos y aplicaciones. Estos agentes interpretan la intención del usuario, interactúan con las interfaces visuales y de texto y realizan acciones orientadas a objetivos mediante la combinación del razonamiento LLM, los modelos de lenguaje visual (VLMs) y los servidores de herramientas que ejecutan comandos o simulan eventos de entrada.

Este patrón es importante para las automatizaciones prácticas de IA, en las que el agente funciona no solo como asistente, sino también como un proxy que realiza acciones como lo haría un humano, a menudo utilizando las mismas herramientas y entornos.

Arquitectura

En el siguiente diagrama se muestra un patrón de agentes que utilizan ordenadores:

Description (Descripción)

Recibe una consulta
- Una tarea o solicitud se proporciona a través de una interfaz de usuario, API o lenguaje natural.
Accede a la memoria
- El agente recupera la memoria a corto y largo plazo para recordar órdenes, objetivos y estados del sistema anteriores.
Analiza el contexto visual
- Un VLM observa la pantalla de la computadora, el estado del sistema o los elementos de la interfaz de usuario para comprender un contexto determinado e identificar los elementos procesables.
Razones a través de un LLM
- El LLM combina la consulta, el estado de la memoria, la herramienta y la respuesta del servidor para determinar la siguiente acción.
Interactúa con el servidor de herramientas
- El agente invoca herramientas que están alojadas en un servidor, entre las que se incluyen las siguientes:
  - Navegadores (por ejemplo, Headless Chrome) y entornos de shell
  - Editores de texto y código
  - Interfaces de script personalizadas
Actualiza las entradas visuales
- Si la interfaz de usuario del sistema cambia o es necesario realizar más observaciones, el VLM puede volver a analizar el estado de la pantalla o los búferes de texto.
Actualiza la memoria
- Los nuevos conocimientos, los estados del sistema o los comentarios de los usuarios se graban en la memoria a corto y largo plazo.
Formula las decisiones y explicaciones finales
- El LLM sintetiza los resultados o recomienda acciones en función de la consulta y el resultado de la herramienta.
Devuelve una respuesta
- El agente devuelve los resultados a la interfaz (por ejemplo, una tarea completada, una confirmación o un contenido generado).

Capacidades

Razonamiento multimodal con entradas visuales y textuales
Control de las aplicaciones mediante entradas simuladas o impulsadas por API
Administración de memoria para un estado persistente
Autonomía en la ejecución secuencial (flujos de varios pasos)

Casos de uso comunes

Desarrolladores de IA que escriben y ejecutan código en IDEs
Agentes de uso informático para flujos de trabajo digitales repetitivos
Usuarios simulados para pruebas de software y control de calidad
Agentes de accesibilidad para navegar UIs mediante instrucciones de voz o de alto nivel
Automatización robótica inteligente de procesos (RPA) que se mejora con el razonamiento

Guía para la implementación

Puede crear este patrón con lo siguiente: Servicios de AWS
Amazon Bedrock para una planificación y un razonamiento basados en LLM
Amazon Elastic Compute Cloud (Amazon EC2) AWS Lambda o SageMaker Amazon notebooks para ejecutar servidores de herramientas con entornos de interfaz de usuario simulados
Amazon Simple Storage Service (Amazon S3) o Amazon DynamoDB para la persistencia de la memoria
Amazon Rekognition (o modelos personalizados) para el análisis de imágenes de interfaz de usuario en escenarios híbridos
Amazon CloudWatch Logs o AWS X-Ray para registros de observabilidad y auditoría

Resumen

Los agentes que utilizan ordenadores actúan como operadores digitales autónomos, cerrando la brecha entre las interacciones entre humanos y ordenadores y las acciones impulsadas por la IA. Al incorporar memoria, orquestar herramientas y VLMs, estos agentes pueden interactuar de forma adaptativa con sistemas diseñados para humanos, ejecutar acciones, actualizar archivos, navegar por los menús y generar respuestas.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Agentes basados en herramientas para servidores

Agentes de codificación