Arquitetura Description Capacidades Casos de uso comuns Orientação para implementação Resumo

Agentes de uso de computador

Os agentes de uso do computador podem simular ou controlar ambientes digitais, como navegadores, terminais, sistemas de arquivos e aplicativos. Esses agentes interpretam a intenção do usuário, interagem com interfaces visuais e de texto e realizam ações direcionadas a objetivos combinando raciocínio LLM, modelos de linguagem visual (VLMs) e servidores de ferramentas que executam comandos ou simulam eventos de entrada.

Esse padrão é importante para automações práticas de IA, em que o agente funciona não apenas como um assistente, mas também como um proxy que executa ações como um humano faria, geralmente usando as mesmas ferramentas e ambientes.

Arquitetura

Um padrão de agente de uso do computador é mostrado no diagrama a seguir:

Description

Recebe uma consulta
- Uma tarefa ou solicitação é fornecida por meio de uma interface de usuário, API ou interface de linguagem natural.
Acessa a memória
- O agente recupera a memória de curto e longo prazo para relembrar comandos, metas e estados do sistema anteriores.
Analisa o contexto visual
- Um VLM observa a tela do computador, o estado do sistema ou os elementos da interface do usuário para entender um determinado contexto e identificar itens acionáveis.
Razões por meio de um LLM
- O LLM combina a consulta, o estado da memória, a ferramenta e a resposta do servidor para determinar a próxima ação.
Interage com o servidor de ferramentas
- O agente invoca ferramentas hospedadas em um servidor, que podem incluir o seguinte:
  - Navegadores (por exemplo, Chrome sem cabeçalho) e ambientes de shell
  - Editores de texto e código
  - Interfaces de script personalizadas
Atualiza as entradas visuais
- Se a interface do usuário do sistema mudar ou for necessária uma observação adicional, o VLM poderá reanalisar o estado da tela ou os buffers de texto.
Atualiza a memória
- Novos insights, estados do sistema ou feedback do usuário são gravados na memória de curto e longo prazo.
Formula decisões e explicações finais
- O LLM sintetiza resultados ou recomenda ações com base na consulta e na saída da ferramenta.
Retorna uma resposta
- O agente retorna os resultados para a interface (por exemplo, uma tarefa concluída, confirmação ou conteúdo gerado).

Capacidades

Raciocínio multimodal com entradas visuais e textuais
Controle sobre aplicativos por meio de entradas simuladas ou orientadas por API
Gerenciamento de memória para estado persistente
Autonomia na execução de sequências (fluxos de várias etapas)

Casos de uso comuns

Desenvolvedores de IA que escrevem e executam código em IDEs
Agentes de uso de computador para fluxos de trabalho digitais repetitivos
Usuários simulados para testes de software e garantia de qualidade
Agentes de acessibilidade para UIs navegar por instruções de voz ou de alto nível
Automação inteligente de processos robóticos (RPA) aprimorada com o raciocínio

Orientação para implementação

Você pode criar esse padrão usando o seguinte Serviços da AWS:
Amazon Bedrock para planejamento e raciocínio baseados em LLM
Amazon Elastic Compute Cloud (Amazon EC2) ou notebooks SageMaker Amazon para executar AWS Lambda servidores de ferramentas com ambientes de interface de usuário simulados
Amazon Simple Storage Service (Amazon S3) ou Amazon DynamoDB para persistência de memória
Amazon Rekognition (ou modelos personalizados) para análise de imagens de UI em cenários híbridos
Amazon CloudWatch Logs ou AWS X-Ray para trilhas de observabilidade e auditoria

Resumo

Os agentes de uso do computador atuam como operadores digitais autônomos, preenchendo a lacuna entre as interações humano-computador e as ações orientadas pela IA. Ao incorporar memória, orquestração de ferramentas e VLMs, esses agentes podem interagir de forma adaptativa com sistemas projetados para humanos, executar ações, atualizar arquivos, navegar por menus e gerar respostas.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Agentes baseados em ferramentas para servidores

Agentes de codificação