

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Agentes de uso de computador
<a name="computer-use-agents"></a>

Os agentes de uso do computador podem simular ou controlar ambientes digitais, como navegadores, terminais, sistemas de arquivos e aplicativos. Esses agentes interpretam a intenção do usuário, interagem com interfaces visuais e de texto e realizam ações direcionadas a objetivos combinando raciocínio LLM, modelos de linguagem visual (VLMs) e servidores de ferramentas que executam comandos ou simulam eventos de entrada.

Esse padrão é importante para automações práticas de IA, em que o agente funciona não apenas como um assistente, mas também como um proxy que executa ações como um humano faria, geralmente usando as mesmas ferramentas e ambientes.

## Arquitetura
<a name="architecture-computer-use"></a>

Um padrão de agente de uso do computador é mostrado no diagrama a seguir:

![\[Agente de uso de computador.\]](http://docs.aws.amazon.com/pt_br/prescriptive-guidance/latest/agentic-ai-patterns/images/computer-use-agents.png)


## Description
<a name="description-computer-use"></a>

1. Recebe uma consulta
   + Uma tarefa ou solicitação é fornecida por meio de uma interface de usuário, API ou interface de linguagem natural.

1. Acessa a memória
   + O agente recupera a memória de curto e longo prazo para relembrar comandos, metas e estados do sistema anteriores.

1. Analisa o contexto visual
   + Um VLM observa a tela do computador, o estado do sistema ou os elementos da interface do usuário para entender um determinado contexto e identificar itens acionáveis.

1. Razões por meio de um LLM
   + O LLM combina a consulta, o estado da memória, a ferramenta e a resposta do servidor para determinar a próxima ação.

1. Interage com o servidor de ferramentas
   + O agente invoca ferramentas hospedadas em um servidor, que podem incluir o seguinte:
     + Navegadores (por exemplo, Chrome sem cabeçalho) e ambientes de shell
     + Editores de texto e código
     + Interfaces de script personalizadas

1. Atualiza as entradas visuais
   + Se a interface do usuário do sistema mudar ou for necessária uma observação adicional, o VLM poderá reanalisar o estado da tela ou os buffers de texto.

1. Atualiza a memória
   + Novos insights, estados do sistema ou feedback do usuário são gravados na memória de curto e longo prazo.

1. Formula decisões e explicações finais
   + O LLM sintetiza resultados ou recomenda ações com base na consulta e na saída da ferramenta.

1. Retorna uma resposta
   + O agente retorna os resultados para a interface (por exemplo, uma tarefa concluída, confirmação ou conteúdo gerado).

## Capacidades
<a name="capabilities-computer-use"></a>
+ Raciocínio multimodal com entradas visuais e textuais
+ Controle sobre aplicativos por meio de entradas simuladas ou orientadas por API
+ Gerenciamento de memória para estado persistente
+ Autonomia na execução de sequências (fluxos de várias etapas)

## Casos de uso comuns
<a name="common-use-cases-computer-use"></a>
+ Desenvolvedores de IA que escrevem e executam código em IDEs
+ Agentes de uso de computador para fluxos de trabalho digitais repetitivos
+ Usuários simulados para testes de software e garantia de qualidade
+ Agentes de acessibilidade para UIs navegar por instruções de voz ou de alto nível
+ Automação inteligente de processos robóticos (RPA) aprimorada com o raciocínio

## Orientação para implementação
<a name="implementation-guidance-computer-use"></a>
+ Você pode criar esse padrão usando o seguinte Serviços da AWS:
+ Amazon Bedrock para planejamento e raciocínio baseados em LLM
+ Amazon Elastic Compute Cloud (Amazon EC2) ou notebooks SageMaker Amazon para executar AWS Lambda servidores de ferramentas com ambientes de interface de usuário simulados
+ Amazon Simple Storage Service (Amazon S3) ou Amazon DynamoDB para persistência de memória
+ Amazon Rekognition (ou modelos personalizados) para análise de imagens de UI em cenários híbridos
+ Amazon CloudWatch Logs ou AWS X-Ray para trilhas de observabilidade e auditoria

## Resumo
<a name="summary-computer-use"></a>

Os agentes de uso do computador atuam como operadores digitais autônomos, preenchendo a lacuna entre as interações humano-computador e as ações orientadas pela IA. Ao incorporar memória, orquestração de ferramentas e VLMs, esses agentes podem interagir de forma adaptativa com sistemas projetados para humanos, executar ações, atualizar arquivos, navegar por menus e gerar respostas.