Agen penggunaan komputer - AWS Bimbingan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Agen penggunaan komputer

Agen penggunaan komputer dapat mensimulasikan atau mengontrol lingkungan digital seperti browser, terminal, sistem file, dan aplikasi. Agen ini menafsirkan maksud pengguna, berinteraksi dengan antarmuka visual dan teks, dan melakukan tindakan yang diarahkan pada tujuan dengan menggabungkan penalaran LLM, model bahasa visual (VLMs), dan server alat yang menjalankan perintah atau mensimulasikan peristiwa input.

Pola ini penting untuk otomatisasi AI praktis, di mana agen berfungsi tidak hanya sebagai asisten tetapi juga sebagai proxy yang melakukan tindakan seperti manusia, seringkali dengan menggunakan alat dan lingkungan yang sama.

Arsitektur

Pola agen penggunaan komputer ditunjukkan pada diagram berikut:

Agen penggunaan komputer.

Deskripsi

  1. Menerima kueri

    • Tugas atau permintaan disediakan melalui UI, API, atau antarmuka bahasa alami.

  2. Mengakses memori

    • Agen mengambil memori jangka pendek dan jangka panjang untuk mengingat perintah, tujuan, dan status sistem masa lalu.

  3. Menganalisis konteks visual

    • VLM mengamati layar komputer, status sistem, atau elemen UI untuk memahami konteks tertentu dan mengidentifikasi item yang dapat ditindaklanjuti.

  4. Alasan melalui LLM

    • LLM menggabungkan kueri, status memori, alat, dan respons server untuk menentukan tindakan selanjutnya.

  5. Berinteraksi dengan server alat

    • Agen memanggil alat yang di-host di server, yang mungkin termasuk yang berikut:

      • Browser (misalnya, Chrome tanpa kepala) dan lingkungan shell

      • Editor teks dan kode

      • Antarmuka skrip kustom

  6. Memperbarui input visual

    • Jika UI sistem berubah atau pengamatan lebih lanjut diperlukan, VLM dapat menganalisis ulang status layar atau buffer teks.

  7. Memperbarui memori

    • Wawasan baru, status sistem, atau umpan balik pengguna ditulis ke memori jangka pendek dan jangka panjang.

  8. Merumuskan keputusan akhir dan penjelasan

    • LLM mensintesis hasil atau merekomendasikan tindakan berdasarkan kueri dan output alat.

  9. Mengembalikan respon

    • Agen mengembalikan hasil ke antarmuka (misalnya, tugas yang diselesaikan, konfirmasi, atau konten yang dihasilkan).

Kemampuan

  • Penalaran multimodal dengan input visual dan tekstual

  • Kontrol atas aplikasi melalui input simulasi atau berbasis API

  • Manajemen memori untuk keadaan persisten

  • Otonomi dalam eksekusi urutan (aliran multistep)

Kasus penggunaan umum

  • Pengembang AI yang menulis dan menjalankan kode di IDEs

  • Agen penggunaan komputer untuk alur kerja digital berulang

  • Pengguna simulasi untuk pengujian perangkat lunak dan jaminan kualitas

  • Agen aksesibilitas untuk menavigasi UIs melalui suara atau instruksi tingkat tinggi

  • Otomatisasi proses robot cerdas (RPA) yang ditingkatkan dengan penalaran

Panduan implementasi

  • Anda dapat membangun pola ini menggunakan yang berikut Layanan AWS:

  • Amazon Bedrock untuk perencanaan dan penalaran berbasis LLM

  • Amazon Elastic Compute Cloud (Amazon EC2) AWS Lambda, atau SageMaker notebook Amazon untuk menjalankan server alat dengan lingkungan UI simulasi

  • Amazon Simple Storage Service (Amazon S3) atau Amazon DynamoDB untuk persistensi memori

  • Amazon Rekognition (atau model kustom) untuk analisis gambar UI dalam skenario hybrid

  • CloudWatch Log Amazon atau AWS X-Ray untuk jalur observabilitas dan audit

Ringkasan

Agen penggunaan komputer bertindak sebagai operator digital otonom, menjembatani kesenjangan antara interaksi manusia-komputer dan tindakan berbasis AI. Dengan menggabungkan memori, orkestrasi alat, dan VLMs, agen ini dapat berinteraksi secara adaptif dengan sistem yang dirancang untuk manusia, menjalankan tindakan, memperbarui file, menavigasi menu, dan menghasilkan respons.