View a markdown version of this page

Agen pidato dan suara - AWS Bimbingan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Agen pidato dan suara

Agen pidato dan suara berinteraksi dengan pengguna melalui dialog lisan. Agen-agen ini mengintegrasikan pengenalan suara, pemahaman bahasa alami, dan sintesis ucapan untuk memungkinkan AI percakapan di seluruh platform telepon, seluler, web, dan tertanam.

Agen suara sangat efektif dalam lingkungan hands-free, real-time, atau berbasis aksesibilitas. Dengan menggabungkan antarmuka streaming dengan penalaran yang didukung LLM, mereka memfasilitasi interaksi yang kaya dan dinamis yang terasa alami bagi pengguna.

Arsitektur

Agen pidato dan suara ditunjukkan dalam diagram berikut:

Agen pidato dan suara.

Deskripsi

  1. Menerima kueri suara

    • Pengguna menyuarakan permintaan ke telepon, mikrofon, atau sistem tertanam.

    • Modul speech-to-text (STT) mengubah audio menjadi teks.

  2. Mengintegrasikan konteks streaming dan telepon

    • Agen menggunakan antarmuka streaming untuk mengelola audio I/O secara real time.

    • Jika digunakan di pusat kontak atau konteks telekomunikasi, integrasi telepon menangani perutean sesi, input multi-frekuensi nada ganda (DTMF), dan transportasi media.

Catatan: DTMF mengacu pada nada yang dihasilkan saat Anda menekan tombol pada keypad telepon. Dalam konteks integrasi konteks streaming dan telepon dalam agen suara, DTMF digunakan sebagai mekanisme input sinyal selama panggilan telepon, terutama dalam sistem respons suara interaktif (IVR). Input DTMF memungkinkan agen untuk:

  • Kenali pilihan menu (misalnya, “Tekan 1 untuk penagihan. Tekan 2 untuk dukungan.”)

  • Kumpulkan input numerik (misalnya, nomor akun PINs, dan nomor konfirmasi)

  • Memicu alur kerja atau transisi status dalam alur panggilan

  • Kembalikan dari ucapan ke nada sentuh bila perlu

  1. Alasan melalui konteks aliran LLM

    • Kueri dikirim ke agen, yang meneruskannya, bersama dengan metadata sesi apa pun (misalnya, ID pemanggil, konteks sebelumnya), ke LLM.

    • LLM menghasilkan respons, mungkin menggunakan chain-of-thought strategi atau memori multiturn jika interaksi sedang berlangsung.

  2. Mengembalikan respons suara

    • Agen mengubah responsnya terhadap ucapan menggunakan text-to-speech (TTS).

    • Ini mengembalikan audio ke pengguna melalui saluran suara.

Kemampuan

  • Pemahaman dan generasi pidato waktu nyata

  • Multilingual I/O dengan dukungan STT dan TTS

  • Integrasi dengan telepon atau streaming APIs

  • Kesadaran sesi dan serah terima memori di antara belokan

Kasus penggunaan umum

  • Sistem IVR percakapan

  • Resepsionis virtual dan penjadwal janji temu

  • Agen helpdesk berbasis suara

  • Asisten suara yang dapat dikenakan

  • Antarmuka suara untuk rumah pintar dan alat aksesibilitas

Panduan implementasi

Anda dapat membangun pola ini menggunakan alat-alat berikut dan Layanan AWS:

  • Amazon Lex V2 atau Amazon Transcribe untuk STT

  • Amazon Polly untuk TTS

  • Amazon Chime SDK, Amazon Connect, atau Amazon Interactive Video Service (Amazon IVS) untuk streaming dan telepon

  • Amazon Bedrock untuk penalaran dengan Anthropic, AI21, atau model yayasan lainnya

  • AWS Lambda untuk menghubungkan STT, LLM, TTS, dan konteks sesi

(Opsional) Peningkatan tambahan dapat mencakup yang berikut:

  • Amazon Kendra atau OpenSearch untuk RAG yang sadar konteks

  • Amazon DynamoDB untuk memori sesi

  • CloudWatch Log Amazon dan AWS X-Ray untuk ketertelusuran

Ringkasan

Agen bicara dan suara adalah sistem cerdas yang berinteraksi melalui percakapan alami. Dengan mengintegrasikan antarmuka ucapan dengan penalaran LLM dan infrastruktur streaming waktu nyata, agen suara memungkinkan interaksi yang mulus, dapat diakses, dan terukur.