Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Agenti per uso informatico
Gli agenti che utilizzano computer possono simulare o controllare ambienti digitali come browser, terminali, file system e applicazioni. Questi agenti interpretano l'intento dell'utente, interagiscono con interfacce visive e testuali ed eseguono azioni mirate combinando ragionamenti LLM, modelli di linguaggio visivo (VLMs) e server di strumenti che eseguono comandi o simulano eventi di input.
Questo modello è importante per le automazioni di intelligenza artificiale pratiche, in cui l'agente non funziona solo come assistente ma anche come proxy che esegue azioni come farebbe un essere umano, spesso utilizzando gli stessi strumenti e ambienti.
Architecture
Nel diagramma seguente è illustrato un modello di agente utilizzato dal computer:
Description
-
Riceve un'interrogazione
-
Un'attività o una richiesta viene fornita tramite un'interfaccia utente, un'API o un'interfaccia in linguaggio naturale.
-
-
Accede alla memoria
-
L'agente recupera la memoria a breve e lungo termine per richiamare comandi, obiettivi e stati del sistema passati.
-
-
Analizza il contesto visivo
-
Un VLM osserva lo schermo del computer, lo stato del sistema o gli elementi dell'interfaccia utente per comprendere un determinato contesto e identificare gli elementi utilizzabili.
-
-
Motivi tramite un LLM
-
L'LLM combina la query, lo stato della memoria, lo strumento e la risposta del server per determinare l'azione successiva.
-
-
Interagisce con il server degli strumenti
-
L'agente richiama strumenti ospitati su un server, che possono includere quanto segue:
-
Browser (ad esempio, Chrome headless) e ambienti shell
-
Editor di testo e codice
-
Interfacce di script personalizzate
-
-
-
Aggiorna gli input visivi
-
Se l'interfaccia utente del sistema cambia o sono necessarie ulteriori osservazioni, il VLM può rianalizzare lo stato dello schermo o i buffer di testo.
-
-
Aggiorna la memoria
-
Le nuove informazioni, gli stati del sistema o il feedback degli utenti vengono scritti nella memoria a breve e lungo termine.
-
-
Formula decisioni e spiegazioni finali
-
L'LLM sintetizza i risultati o consiglia azioni in base all'output dell'interrogazione e dello strumento.
-
-
Restituisce una risposta
-
L'agente restituisce i risultati all'interfaccia (ad esempio, un'attività completata, una conferma o un contenuto generato).
-
Funzionalità
-
Ragionamento multimodale con input visivi e testuali
-
Controllo delle applicazioni tramite input simulati o basati su API
-
Gestione della memoria per uno stato persistente
-
Autonomia nell'esecuzione della sequenza (flussi a più fasi)
Casi di utilizzo comune
-
Sviluppatori di intelligenza artificiale che scrivono ed eseguono codice in IDEs
-
Agenti per uso informatico per flussi di lavoro digitali ripetitivi
-
Utenti simulati per il test del software e il controllo della qualità
-
Agenti di accessibilità per la navigazione UIs tramite istruzioni vocali o di alto livello
-
Automazione robotica intelligente dei processi (RPA) potenziata dal ragionamento
Guida all'implementazione
-
È possibile creare questo modello utilizzando quanto segue: Servizi AWS
-
Amazon Bedrock per la pianificazione e il ragionamento basati su LLM
-
Amazon Elastic Compute Cloud (Amazon EC2) o SageMaker notebook Amazon per eseguire server di strumenti con ambienti di interfaccia utente simulati AWS Lambda
-
Amazon Simple Storage Service (Amazon S3) Simple Storage Service (Amazon S3) o Amazon DynamoDB per la persistenza della memoria
-
Amazon Rekognition (o modelli personalizzati) per l'analisi delle immagini dell'interfaccia utente in scenari ibridi
-
Amazon CloudWatch Logs o AWS X-Ray per l'osservabilità e gli audit trail
Riepilogo
Gli agenti che utilizzano i computer agiscono come operatori digitali autonomi, colmando il divario tra le interazioni uomo-computer e le azioni basate sull'intelligenza artificiale. Incorporando memoria e orchestrazione degli strumenti, questi agenti possono interagire in modo adattivo con sistemi progettati per gli esseri umani VLMs, eseguire azioni, aggiornare file, navigare nei menu e generare risposte.