As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Agentes de uso de computador
Os agentes de uso do computador podem simular ou controlar ambientes digitais, como navegadores, terminais, sistemas de arquivos e aplicativos. Esses agentes interpretam a intenção do usuário, interagem com interfaces visuais e de texto e realizam ações direcionadas a objetivos combinando raciocínio LLM, modelos de linguagem visual (VLMs) e servidores de ferramentas que executam comandos ou simulam eventos de entrada.
Esse padrão é importante para automações práticas de IA, em que o agente funciona não apenas como um assistente, mas também como um proxy que executa ações como um humano faria, geralmente usando as mesmas ferramentas e ambientes.
Arquitetura
Um padrão de agente de uso do computador é mostrado no diagrama a seguir:
Description
-
Recebe uma consulta
-
Uma tarefa ou solicitação é fornecida por meio de uma interface de usuário, API ou interface de linguagem natural.
-
-
Acessa a memória
-
O agente recupera a memória de curto e longo prazo para relembrar comandos, metas e estados do sistema anteriores.
-
-
Analisa o contexto visual
-
Um VLM observa a tela do computador, o estado do sistema ou os elementos da interface do usuário para entender um determinado contexto e identificar itens acionáveis.
-
-
Razões por meio de um LLM
-
O LLM combina a consulta, o estado da memória, a ferramenta e a resposta do servidor para determinar a próxima ação.
-
-
Interage com o servidor de ferramentas
-
O agente invoca ferramentas hospedadas em um servidor, que podem incluir o seguinte:
-
Navegadores (por exemplo, Chrome sem cabeçalho) e ambientes de shell
-
Editores de texto e código
-
Interfaces de script personalizadas
-
-
-
Atualiza as entradas visuais
-
Se a interface do usuário do sistema mudar ou for necessária uma observação adicional, o VLM poderá reanalisar o estado da tela ou os buffers de texto.
-
-
Atualiza a memória
-
Novos insights, estados do sistema ou feedback do usuário são gravados na memória de curto e longo prazo.
-
-
Formula decisões e explicações finais
-
O LLM sintetiza resultados ou recomenda ações com base na consulta e na saída da ferramenta.
-
-
Retorna uma resposta
-
O agente retorna os resultados para a interface (por exemplo, uma tarefa concluída, confirmação ou conteúdo gerado).
-
Capacidades
-
Raciocínio multimodal com entradas visuais e textuais
-
Controle sobre aplicativos por meio de entradas simuladas ou orientadas por API
-
Gerenciamento de memória para estado persistente
-
Autonomia na execução de sequências (fluxos de várias etapas)
Casos de uso comuns
-
Desenvolvedores de IA que escrevem e executam código em IDEs
-
Agentes de uso de computador para fluxos de trabalho digitais repetitivos
-
Usuários simulados para testes de software e garantia de qualidade
-
Agentes de acessibilidade para UIs navegar por instruções de voz ou de alto nível
-
Automação inteligente de processos robóticos (RPA) aprimorada com o raciocínio
Orientação para implementação
-
Você pode criar esse padrão usando o seguinte Serviços da AWS:
-
Amazon Bedrock para planejamento e raciocínio baseados em LLM
-
Amazon Elastic Compute Cloud (Amazon EC2) ou SageMaker notebooks Amazon para executar servidores de ferramentas com ambientes de interface de usuário simulados AWS Lambda
-
Amazon Simple Storage Service (Amazon S3) ou Amazon DynamoDB para persistência de memória
-
Amazon Rekognition (ou modelos personalizados) para análise de imagens de UI em cenários híbridos
-
Amazon CloudWatch Logs ou AWS X-Ray para trilhas de observabilidade e auditoria
Resumo
Os agentes de uso do computador atuam como operadores digitais autônomos, preenchendo a lacuna entre as interações humano-computador e as ações orientadas pela IA. Ao incorporar memória, orquestração de ferramentas e VLMs, esses agentes podem interagir de forma adaptativa com sistemas projetados para humanos, executar ações, atualizar arquivos, navegar por menus e gerar respostas.