Arsitektur Deskripsi Kemampuan Kasus penggunaan umum Panduan implementasi Ringkasan

Agen pidato dan suara

Agen pidato dan suara berinteraksi dengan pengguna melalui dialog lisan. Agen-agen ini mengintegrasikan pengenalan suara, pemahaman bahasa alami, dan sintesis ucapan untuk memungkinkan AI percakapan di seluruh platform telepon, seluler, web, dan tertanam.

Agen suara sangat efektif dalam lingkungan hands-free, real-time, atau berbasis aksesibilitas. Dengan menggabungkan antarmuka streaming dengan LLM-powered penalaran, mereka memfasilitasi interaksi yang kaya dan dinamis yang terasa alami bagi pengguna.

Arsitektur

Agen pidato dan suara ditunjukkan dalam diagram berikut:

Deskripsi

Menerima kueri suara
- Pengguna menyuarakan permintaan ke telepon, mikrofon, atau sistem tertanam.
- Modul speech-to-text (STT) mengubah audio menjadi teks.
Mengintegrasikan konteks streaming dan telepon
- Agen menggunakan antarmuka streaming untuk mengelola audio I/O secara real time.
- Jika digunakan di pusat kontak atau konteks telekomunikasi, integrasi telepon menangani perutean sesi, input multi-frekuensi nada ganda (DTMF), dan transportasi media.

Catatan: DTMF mengacu pada nada yang dihasilkan saat Anda menekan tombol pada keypad telepon. Dalam konteks integrasi konteks streaming dan telepon dalam agen suara, DTMF digunakan sebagai mekanisme input sinyal selama panggilan telepon, terutama dalam sistem respons suara interaktif (IVR). Input DTMF memungkinkan agen untuk:

Kenali pilihan menu (misalnya, “Tekan 1 untuk penagihan. Tekan 2 untuk dukungan.”)
Kumpulkan input numerik (misalnya, nomor akun, PIN, dan nomor konfirmasi)
Memicu alur kerja atau transisi status dalam alur panggilan
Kembalikan dari ucapan ke nada sentuh bila perlu

Alasan melalui konteks aliran LLM
- Kueri dikirim ke agen, yang meneruskannya, bersama dengan metadata sesi apa pun (misalnya, ID pemanggil, konteks sebelumnya), ke LLM.
- LLM menghasilkan respons, mungkin menggunakan strategi rantai pemikiran atau memori multiturn jika interaksi sedang berlangsung.
Mengembalikan respons suara
- Agen mengubah responsnya terhadap ucapan menggunakan text-to-speech (TTS).
- Ini mengembalikan audio ke pengguna melalui saluran suara.

Kemampuan

Real-time pemahaman pidato dan generasi
Multilingual I/O dengan dukungan STT dan TTS
Integrasi dengan API telepon atau streaming
Kesadaran sesi dan serah terima memori di antara belokan

Kasus penggunaan umum

Sistem IVR percakapan
Resepsionis virtual dan penjadwal janji temu
Voice-driven agen helpdesk
Asisten suara yang dapat dikenakan
Antarmuka suara untuk rumah pintar dan alat aksesibilitas

Panduan implementasi

Anda dapat membangun pola ini menggunakan alat-alat berikut dan Layanan AWS:

Amazon Lex V2 atau Amazon Transcribe untuk STT
Amazon Polly untuk TTS
Amazon Chime SDK, Pelanggan Amazon Connect, atau Amazon Interactive Video Service (Amazon IVS) untuk streaming dan telepon
Amazon Bedrock untuk penalaran dengan Anthropic, AI21, atau model yayasan lainnya
AWS Lambda untuk menghubungkan STT, LLM, TTS, dan konteks sesi

(Opsional) Peningkatan tambahan dapat mencakup yang berikut:

Amazon Kendra atau OpenSearch untuk RAG yang sadar konteks
Amazon DynamoDB untuk memori sesi
CloudWatch Log Amazon dan AWS X-Ray untuk ketertelusuran

Ringkasan

Agen bicara dan suara adalah sistem cerdas yang berinteraksi melalui percakapan alami. Dengan mengintegrasikan antarmuka ucapan dengan penalaran LLM dan infrastruktur streaming waktu nyata, agen suara memungkinkan interaksi yang mulus, dapat diakses, dan terukur.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Agen pengkodean

Agen orkestrasi alur kerja