View a markdown version of this page

Speech-to-Speech (Amazon Nova 2 Sonic) - Amazon Nova

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Speech-to-Speech (Amazon Nova 2 Sonic)

Amazon Nova 2 Sonic memungkinkan AI percakapan real-time dengan input dan output ucapan. Bagian berikut mencakup kemampuan canggih untuk membangun asisten suara interaktif, otomatisasi layanan pelanggan, dan aplikasi percakapan.

Fitur utama

Amazon Nova 2 Sonic menyediakan kemampuan berikut:

  • State-of-the-art streaming pemahaman pidato dengan API streaming dua arah yang memungkinkan percakapan multi-putaran real-time dan latensi rendah.

  • Dukungan multibahasa dengan deteksi dan peralihan bahasa otomatis. Suara ekspresif ditawarkan, termasuk suara yang terdengar maskulin dan suara feminin, dalam bahasa berikut:

    • Inggris (AS, Inggris, India, Australia)

    • Prancis

    • Bahasa Italia

    • Bahasa Jerman

    • Bahasa Spanyol

    • Bahasa Portugis

    • bahasa Hindi

  • Suara Polyglot yang dapat berbicara dalam bahasa apa pun yang didukung untuk memungkinkan pengalaman pengguna yang konsisten bahkan ketika pengguna beralih bahasa dalam sesi yang sama.

  • Kekokohan terhadap kebisingan latar belakang untuk skenario penyebaran dunia nyata.

  • Kekokohan terhadap aksen yang berbeda untuk bahasa yang didukung.

  • Pengalaman AI percakapan alami seperti manusia dengan kekayaan kontekstual di semua bahasa yang didukung.

  • Respon ucapan adaptif yang secara dinamis menyesuaikan pengiriman berdasarkan prosodi pidato input.

  • Pengambilan giliran cerdas yang mendeteksi kapan pengguna selesai berbicara dan kapan asisten harus merespons, menciptakan ritme dialog alami.

  • Penanganan interupsi pengguna yang anggun tanpa menjatuhkan konteks percakapan.

  • Pembumian pengetahuan dengan data perusahaan menggunakan Retrieval Augmented Generation (RAG).

  • Panggilan fungsi dan dukungan alur kerja agen untuk membangun aplikasi AI yang kompleks.

  • Penanganan alat asinkron yang mengeksekusi panggilan alat sambil mempertahankan alur percakapan, memungkinkan asisten untuk terus berbicara saat alat memproses di latar belakang.

  • Dukungan input lintas modal untuk input audio dan teks dalam percakapan yang sama, memungkinkan pola interaksi yang fleksibel.

  • Batas koneksi 8 menit, dengan pembaruan koneksi dan pola kelanjutan sesi tersedia dalam sampel kode.