Agentes de uso de computador - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Agentes de uso de computador

Os agentes de uso do computador podem simular ou controlar ambientes digitais, como navegadores, terminais, sistemas de arquivos e aplicativos. Esses agentes interpretam a intenção do usuário, interagem com interfaces visuais e de texto e realizam ações direcionadas a objetivos combinando raciocínio LLM, modelos de linguagem visual (VLMs) e servidores de ferramentas que executam comandos ou simulam eventos de entrada.

Esse padrão é importante para automações práticas de IA, em que o agente funciona não apenas como um assistente, mas também como um proxy que executa ações como um humano faria, geralmente usando as mesmas ferramentas e ambientes.

Arquitetura

Um padrão de agente de uso do computador é mostrado no diagrama a seguir:

Agente de uso de computador.

Description

  1. Recebe uma consulta

    • Uma tarefa ou solicitação é fornecida por meio de uma interface de usuário, API ou interface de linguagem natural.

  2. Acessa a memória

    • O agente recupera a memória de curto e longo prazo para relembrar comandos, metas e estados do sistema anteriores.

  3. Analisa o contexto visual

    • Um VLM observa a tela do computador, o estado do sistema ou os elementos da interface do usuário para entender um determinado contexto e identificar itens acionáveis.

  4. Razões por meio de um LLM

    • O LLM combina a consulta, o estado da memória, a ferramenta e a resposta do servidor para determinar a próxima ação.

  5. Interage com o servidor de ferramentas

    • O agente invoca ferramentas hospedadas em um servidor, que podem incluir o seguinte:

      • Navegadores (por exemplo, Chrome sem cabeçalho) e ambientes de shell

      • Editores de texto e código

      • Interfaces de script personalizadas

  6. Atualiza as entradas visuais

    • Se a interface do usuário do sistema mudar ou for necessária uma observação adicional, o VLM poderá reanalisar o estado da tela ou os buffers de texto.

  7. Atualiza a memória

    • Novos insights, estados do sistema ou feedback do usuário são gravados na memória de curto e longo prazo.

  8. Formula decisões e explicações finais

    • O LLM sintetiza resultados ou recomenda ações com base na consulta e na saída da ferramenta.

  9. Retorna uma resposta

    • O agente retorna os resultados para a interface (por exemplo, uma tarefa concluída, confirmação ou conteúdo gerado).

Capacidades

  • Raciocínio multimodal com entradas visuais e textuais

  • Controle sobre aplicativos por meio de entradas simuladas ou orientadas por API

  • Gerenciamento de memória para estado persistente

  • Autonomia na execução de sequências (fluxos de várias etapas)

Casos de uso comuns

  • Desenvolvedores de IA que escrevem e executam código em IDEs

  • Agentes de uso de computador para fluxos de trabalho digitais repetitivos

  • Usuários simulados para testes de software e garantia de qualidade

  • Agentes de acessibilidade para UIs navegar por instruções de voz ou de alto nível

  • Automação inteligente de processos robóticos (RPA) aprimorada com o raciocínio

Orientação para implementação

  • Você pode criar esse padrão usando o seguinte Serviços da AWS:

  • Amazon Bedrock para planejamento e raciocínio baseados em LLM

  • Amazon Elastic Compute Cloud (Amazon EC2) ou SageMaker notebooks Amazon para executar servidores de ferramentas com ambientes de interface de usuário simulados AWS Lambda

  • Amazon Simple Storage Service (Amazon S3) ou Amazon DynamoDB para persistência de memória

  • Amazon Rekognition (ou modelos personalizados) para análise de imagens de UI em cenários híbridos

  • Amazon CloudWatch Logs ou AWS X-Ray para trilhas de observabilidade e auditoria

Resumo

Os agentes de uso do computador atuam como operadores digitais autônomos, preenchendo a lacuna entre as interações humano-computador e as ações orientadas pela IA. Ao incorporar memória, orquestração de ferramentas e VLMs, esses agentes podem interagir de forma adaptativa com sistemas projetados para humanos, executar ações, atualizar arquivos, navegar por menus e gerar respostas.