Arsitektur Deskripsi Kemampuan Kasus penggunaan umum Panduan implementasi Ringkasan

Agen penggunaan komputer

Agen penggunaan komputer dapat mensimulasikan atau mengontrol lingkungan digital seperti browser, terminal, sistem file, dan aplikasi. Agen ini menafsirkan maksud pengguna, berinteraksi dengan antarmuka visual dan teks, dan melakukan tindakan yang diarahkan pada tujuan dengan menggabungkan penalaran LLM, model bahasa visual (VLMs), dan server alat yang menjalankan perintah atau mensimulasikan peristiwa input.

Pola ini penting untuk otomatisasi AI praktis, di mana agen berfungsi tidak hanya sebagai asisten tetapi juga sebagai proxy yang melakukan tindakan seperti manusia, seringkali dengan menggunakan alat dan lingkungan yang sama.

Arsitektur

Pola agen penggunaan komputer ditunjukkan pada diagram berikut:

Deskripsi

Menerima kueri
- Tugas atau permintaan disediakan melalui UI, API, atau antarmuka bahasa alami.
Mengakses memori
- Agen mengambil memori jangka pendek dan jangka panjang untuk mengingat perintah, tujuan, dan status sistem masa lalu.
Menganalisis konteks visual
- VLM mengamati layar komputer, status sistem, atau elemen UI untuk memahami konteks tertentu dan mengidentifikasi item yang dapat ditindaklanjuti.
Alasan melalui LLM
- LLM menggabungkan kueri, status memori, alat, dan respons server untuk menentukan tindakan selanjutnya.
Berinteraksi dengan server alat
- Agen memanggil alat yang di-host di server, yang mungkin termasuk yang berikut:
  - Browser (misalnya, Chrome tanpa kepala) dan lingkungan shell
  - Editor teks dan kode
  - Antarmuka skrip kustom
Memperbarui input visual
- Jika UI sistem berubah atau pengamatan lebih lanjut diperlukan, VLM dapat menganalisis ulang status layar atau buffer teks.
Memperbarui memori
- Wawasan baru, status sistem, atau umpan balik pengguna ditulis ke memori jangka pendek dan jangka panjang.
Merumuskan keputusan akhir dan penjelasan
- LLM mensintesis hasil atau merekomendasikan tindakan berdasarkan kueri dan output alat.
Mengembalikan respon
- Agen mengembalikan hasil ke antarmuka (misalnya, tugas yang diselesaikan, konfirmasi, atau konten yang dihasilkan).

Kemampuan

Penalaran multimodal dengan input visual dan tekstual
Kontrol atas aplikasi melalui input simulasi atau berbasis API
Manajemen memori untuk keadaan persisten
Otonomi dalam eksekusi urutan (aliran multistep)

Kasus penggunaan umum

Pengembang AI yang menulis dan menjalankan kode IDEs
Agen penggunaan komputer untuk alur kerja digital berulang
Pengguna simulasi untuk pengujian perangkat lunak dan jaminan kualitas
Agen aksesibilitas untuk menavigasi UIs melalui suara atau instruksi tingkat tinggi
Otomatisasi proses robot cerdas (RPA) yang ditingkatkan dengan penalaran

Panduan implementasi

Anda dapat membangun pola ini menggunakan yang berikut Layanan AWS:
Amazon Bedrock untuk perencanaan dan penalaran berbasis LLM
Amazon Elastic Compute Cloud (Amazon EC2) AWS Lambda,, atau notebook SageMaker Amazon untuk menjalankan server alat dengan lingkungan UI simulasi
Amazon Simple Storage Service (Amazon S3) atau Amazon DynamoDB untuk persistensi memori
Amazon Rekognition (atau model khusus) untuk analisis gambar UI dalam skenario hybrid
CloudWatch Log Amazon atau AWS X-Ray untuk jalur observabilitas dan audit

Ringkasan

Agen penggunaan komputer bertindak sebagai operator digital otonom, menjembatani kesenjangan antara interaksi manusia-komputer dan tindakan berbasis AI. Dengan menggabungkan memori, orkestrasi alat, dan VLMs, agen ini dapat berinteraksi secara adaptif dengan sistem yang dirancang untuk manusia, menjalankan tindakan, memperbarui file, menavigasi menu, dan menghasilkan respons.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Agen berbasis alat untuk server

Agen pengkodean