Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Speech-to-Speech (Amazon Nova 2 Sonic)
Amazon Nova 2 Sonic memungkinkan AI percakapan real-time dengan input dan output ucapan. Bagian berikut mencakup kemampuan canggih untuk membangun asisten suara interaktif, otomatisasi layanan pelanggan, dan aplikasi percakapan.
Fitur utama
Amazon Nova 2 Sonic menyediakan kemampuan berikut:
-
State-of-the-art streaming pemahaman pidato dengan API streaming dua arah yang memungkinkan percakapan multi-putaran real-time dan latensi rendah.
-
Dukungan multibahasa dengan deteksi dan peralihan bahasa otomatis. Suara ekspresif ditawarkan, termasuk suara yang terdengar maskulin dan suara feminin, dalam bahasa berikut:
-
Inggris (AS, Inggris, India, Australia)
-
Prancis
-
Bahasa Italia
-
Bahasa Jerman
-
Bahasa Spanyol
-
Bahasa Portugis
-
bahasa Hindi
-
-
Suara Polyglot yang dapat berbicara dalam bahasa apa pun yang didukung untuk memungkinkan pengalaman pengguna yang konsisten bahkan ketika pengguna beralih bahasa dalam sesi yang sama.
-
Kekokohan terhadap kebisingan latar belakang untuk skenario penyebaran dunia nyata.
-
Kekokohan terhadap aksen yang berbeda untuk bahasa yang didukung.
-
Pengalaman AI percakapan alami seperti manusia dengan kekayaan kontekstual di semua bahasa yang didukung.
-
Respon ucapan adaptif yang secara dinamis menyesuaikan pengiriman berdasarkan prosodi pidato input.
-
Pengambilan giliran cerdas yang mendeteksi kapan pengguna selesai berbicara dan kapan asisten harus merespons, menciptakan ritme dialog alami.
-
Penanganan interupsi pengguna yang anggun tanpa menjatuhkan konteks percakapan.
-
Pembumian pengetahuan dengan data perusahaan menggunakan Retrieval Augmented Generation (RAG).
-
Panggilan fungsi dan dukungan alur kerja agen untuk membangun aplikasi AI yang kompleks.
-
Penanganan alat asinkron yang mengeksekusi panggilan alat sambil mempertahankan alur percakapan, memungkinkan asisten untuk terus berbicara saat alat memproses di latar belakang.
-
Dukungan input lintas modal untuk input audio dan teks dalam percakapan yang sama, memungkinkan pola interaksi yang fleksibel.
-
Batas koneksi 8 menit, dengan pembaruan koneksi dan pola kelanjutan sesi tersedia dalam sampel kode.