View a markdown version of this page

Long-form suara - Amazon Polly

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Long-form suara

Amazon Polly memiliki Long-form mesin yang menghasilkan suara seperti manusia, sangat ekspresif, dan mahir secara emosional. Long-form Suara dirancang untuk memikat perhatian pendengar untuk konten yang lebih panjang, seperti artikel berita, materi pelatihan, atau video pemasaran.

Long-form Suara Amazon Polly dikembangkan dengan teknologi TTS pembelajaran mendalam mutakhir. Model ini belajar untuk mereplikasi fonem, prosodi, intonasi, dan aspek fonetik dan akustik lainnya dari bahasa manusia, menghasilkan output ucapan yang sangat alami.

Long-form Mesin menggunakan embeddings teks untuk menafsirkan makna teks. Menggunakan penyematan teks, Long-form mesin dapat menghasilkan penekanan, jeda, dan nada suara alami yang benar. Hasilnya adalah suara yang menggabungkan berbagai elemen emosional yang ada dalam komunikasi manusia. Ini termasuk meniru dialog yang mengejutkan atau membedakan dari narasi. Bersama-sama, ini menciptakan produk pidato premium yang terdengar seperti manusia hidup.

catatan

Teknologi canggih yang mendasari suara-suara ini termasuk dalam paradigma AI generatif untuk pemodelan bahasa dan suara. Efek samping dari teknologi ini adalah bahwa setiap pembaruan pada data pelatihan dan model dapat menghasilkan sedikit variasi pada cara suara terdengar, bahkan jika kualitas keseluruhannya meningkat dengan pembaruan model. Ini dapat berdampak pada kasus penggunaan dengan bagian konten berbeda yang disintesis dalam jangka waktu yang lama — misalnya, musim podcast.

Tersedia suara bentuk panjang

Amazon Polly saat ini menawarkan empat en-US dan dua ES-es suara bentuk panjang. Kedua bahasa memiliki suara perempuan dan laki-laki yang tersedia. Suara bentuk panjang bahasa Inggris Daniel, Gregory, dan Ruth juga tersedia dalam varian NTTS percakapan.

Bahasa Kode bahasa Name/ID Gender

1

Inggris (US)

en-US

Danielle

Gregory

Ruth

Patrick

Perempuan

Laki-laki

Perempuan

Laki-laki

2

Spanyol (Spanyol)

ES-es

Alba

Raul

Perempuan

Laki-laki

Kompatibilitas fitur dan wilayah

Suara bentuk panjang Amazon Polly tersedia di wilayah berikut:

  • AS Timur (Virginia N.): us-east-1

  • Wilayah lain tidak tersedia

Long-form Mesin Amazon Polly mendukung fitur-fitur berikut:

  • Real-time dan operasi sintesis ucapan asinkron.

  • Semua tanda bicara.

  • Banyak (tetapi tidak semua) tag SSML didukung oleh Amazon Polly. Untuk informasi selengkapnya tentang tag NTTS-supported SSML, lihat Tag SSML yang didukung

  • Seperti halnya suara standar, Anda dapat memilih dari berbagai laju pengambilan sampel untuk mengoptimalkan bandwidth dan kualitas audio untuk aplikasi Anda. Tingkat pengambilan sampel yang valid untuk suara standar, bentuk panjang, dan saraf adalah: 8 kHz, 16 kHz, 22kHz, atau 24 kHz. Default untuk suara standar adalah 22 kHz. Default untuk suara bentuk panjang dan saraf adalah 24 kHz. Amazon Polly mendukung format streaming audio MP3, OGG (Vorbis), dan PCM mentah.

catatan

Long-form biaya suara ditentukan pada halaman informasi harga Amazon Polly.