Jenis model pengenalan ucapan Mengkonfigurasi preferensi model ucapan Memilih model pidato yang tepat

Mengkonfigurasi preferensi model pengenalan suara

Amazon Lex V2 menyediakan berbagai model pengenalan suara yang dapat Anda pilih untuk mengoptimalkan akurasi dan kinerja kemampuan pengenalan suara bot Anda. Anda dapat mengonfigurasi preferensi model ucapan untuk memilih model yang paling sesuai untuk kasus penggunaan Anda.

Jenis model pengenalan ucapan

Amazon Lex V2 mendukung model pengenalan suara berikut:

Model standar: Model pengenalan suara standar memberikan kinerja pengenalan suara yang andal untuk kasus penggunaan umum. Model ini menawarkan akurasi yang konsisten di berbagai kondisi audio dan cocok untuk sebagian besar aplikasi AI percakapan.
Model saraf: Model pengenalan suara saraf memberikan akurasi yang ditingkatkan dan penanganan yang lebih baik dari pola ucapan alami, aksen, dan kebisingan latar belakang. Model ini menggunakan arsitektur jaringan saraf canggih untuk meningkatkan kinerja pengenalan, terutama di lingkungan audio yang menantang.
Deepgram: Deepgram menyediakan public speech-to-text (STT) API untuk pengguna yang membuat akun dan kunci API. Lihat https://deepgram.com/untuk informasi tentang penawaran umum mereka.

Mengkonfigurasi preferensi model ucapan

Anda dapat mengonfigurasi preferensi model ucapan saat membuat atau memperbarui lokal bot. Pengaturan preferensi model ucapan menentukan model pengenalan mana yang digunakan Amazon Lex V2 untuk memproses input audio untuk bot Anda.

Untuk mengonfigurasi preferensi model ucapan:

Di konsol Amazon Lex V2, navigasikan ke bot Anda dan pilih lokal yang ingin Anda konfigurasikan.
Di pengaturan lokal bot, cari bagian Pengaturan pengenalan ucapan.
Untuk preferensi model Ucapan, pilih salah satu opsi berikut:
- Standar - Gunakan model pengenalan suara standar untuk kinerja yang andal di seluruh kasus penggunaan umum.
- Neural - Gunakan model pengenalan ucapan saraf untuk meningkatkan akurasi dan penanganan pola bicara alami yang lebih baik.
- Deepgram - Gunakan API Listen Deepgram untuk pengenalan suara. Untuk petunjuk penyiapan, lihatMenyiapkan preferensi model ucapan Deepgram.
Simpan perubahan Anda untuk menerapkan preferensi model ucapan ke lokal bot Anda.

catatan

Jika Anda tidak menentukan preferensi model ucapan, Amazon Lex V2 menggunakan model standar secara default.

Memilih model pidato yang tepat

Pertimbangkan faktor-faktor berikut saat memilih model pengenalan suara untuk bot Anda:

Kualitas audio - Jika bot Anda akan memproses audio dengan kebisingan latar belakang, kualitas audio yang bervariasi, atau kondisi akustik yang menantang, model saraf dapat memberikan akurasi yang lebih baik.
Keragaman pembicara - Jika bot Anda akan berinteraksi dengan pengguna yang memiliki aksen atau pola bicara yang beragam, kemampuan pemrosesan bahasa alami model saraf yang ditingkatkan dapat meningkatkan kinerja pengenalan.
Persyaratan kinerja - Model standar memberikan kinerja yang konsisten dan mungkin cukup untuk aplikasi dengan lingkungan audio yang terkontrol dan input ucapan yang jelas.

Anda dapat menguji kedua model dengan kasus penggunaan khusus Anda untuk menentukan mana yang memberikan keseimbangan akurasi dan kinerja terbaik untuk aplikasi Anda.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Menyesuaikan transkripsi ucapan untuk digunakan dengan bot Lex V2 Anda

Menyiapkan preferensi model ucapan Deepgram