Architecture Description Funzionalità Casi di utilizzo comune Guida all’implementazione Riepilogo

Agenti per uso informatico

Gli agenti che utilizzano computer possono simulare o controllare ambienti digitali come browser, terminali, file system e applicazioni. Questi agenti interpretano l'intento dell'utente, interagiscono con interfacce visive e testuali ed eseguono azioni mirate combinando ragionamenti LLM, modelli di linguaggio visivo (VLMs) e server di strumenti che eseguono comandi o simulano eventi di input.

Questo modello è importante per le automazioni di intelligenza artificiale pratiche, in cui l'agente non funziona solo come assistente ma anche come proxy che esegue azioni come farebbe un essere umano, spesso utilizzando gli stessi strumenti e ambienti.

Architecture

Nel diagramma seguente è illustrato un modello di agente utilizzato dal computer:

Description

Riceve una richiesta
- Un'attività o una richiesta viene fornita tramite un'interfaccia utente, un'API o un'interfaccia in linguaggio naturale.
Accede alla memoria
- L'agente recupera la memoria a breve e lungo termine per richiamare comandi, obiettivi e stati del sistema passati.
Analizza il contesto visivo
- Un VLM osserva lo schermo del computer, lo stato del sistema o gli elementi dell'interfaccia utente per comprendere un determinato contesto e identificare gli elementi utilizzabili.
Motivi tramite un LLM
- L'LLM combina la query, lo stato della memoria, lo strumento e la risposta del server per determinare l'azione successiva.
Interagisce con il server degli strumenti
- L'agente richiama strumenti ospitati su un server, che possono includere quanto segue:
  - Browser (ad esempio, Chrome headless) e ambienti shell
  - Editor di testo e codice
  - Interfacce di script personalizzate
Aggiorna gli input visivi
- Se l'interfaccia utente del sistema cambia o sono necessarie ulteriori osservazioni, il VLM può rianalizzare lo stato dello schermo o i buffer di testo.
Aggiorna la memoria
- Le nuove informazioni, gli stati del sistema o il feedback degli utenti vengono scritti nella memoria a breve e lungo termine.
Formula le decisioni e le spiegazioni finali
- L'LLM sintetizza i risultati o consiglia azioni in base all'output dell'interrogazione e dello strumento.
Restituisce una risposta
- L'agente restituisce i risultati all'interfaccia (ad esempio, un'attività completata, una conferma o un contenuto generato).

Funzionalità

Ragionamento multimodale con input visivi e testuali
Controllo delle applicazioni tramite input simulati o basati su API
Gestione della memoria per uno stato persistente
Autonomia nell'esecuzione della sequenza (flussi a più fasi)

Casi di utilizzo comune

Sviluppatori di intelligenza artificiale che scrivono ed eseguono codice in IDEs
Agenti per uso informatico per flussi di lavoro digitali ripetitivi
Utenti simulati per il test del software e il controllo della qualità
Agenti di accessibilità per la navigazione UIs tramite istruzioni vocali o di alto livello
Automazione robotica intelligente dei processi (RPA) potenziata dal ragionamento

Guida all’implementazione

È possibile creare questo modello utilizzando quanto segue: Servizi AWS
Amazon Bedrock per la pianificazione e il ragionamento basati su LLM
Amazon Elastic Compute Cloud (Amazon EC2) o notebook SageMaker Amazon per eseguire AWS Lambda server di strumenti con ambienti di interfaccia utente simulati
Amazon Simple Storage Service (Amazon S3) Simple Storage Service (Amazon S3) o Amazon DynamoDB per la persistenza della memoria
Amazon Rekognition (o modelli personalizzati) per l'analisi delle immagini dell'interfaccia utente in scenari ibridi
Amazon CloudWatch Logs o AWS X-Ray per l'osservabilità e gli audit trail

Riepilogo

Gli agenti che utilizzano i computer agiscono come operatori digitali autonomi, colmando il divario tra le interazioni uomo-computer e le azioni basate sull'intelligenza artificiale. Incorporando memoria e orchestrazione degli strumenti, questi agenti possono interagire in modo adattivo con sistemi progettati per gli esseri umani VLMs, eseguire azioni, aggiornare file, navigare nei menu e generare risposte.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Agenti basati su strumenti per server

Agenti di codifica