Suara generatif yang tersedia Kompatibilitas fitur dan wilayah

Suara generatif

Mesin text-to-speech (TTS) generatif Amazon Polly menawarkan suara percakapan yang paling mirip manusia, terlibat secara emosional, dan adaptif yang tersedia untuk digunakan melalui konsol Amazon Polly.

Mesin Generatif adalah model Amazon Polly TTS terbesar hingga saat ini. Ini menyebarkan transformator miliaran parameter yang mengubah teks mentah menjadi kode ucapan, diikuti oleh dekoder berbasis konvolusi yang mengubah kode ucapan ini menjadi bentuk gelombang secara bertahap dan ramping. Metode ini menunjukkan kemampuan muncul Model Bahasa Besar (LLM) yang dilaporkan secara luas ketika dilatih tentang peningkatan volume data yang tersedia untuk umum dan kepemilikan yang terdiri dari berbagai suara, bahasa, dan gaya.

Mesin Generatif menciptakan ucapan sintetis yang terlibat secara emosional, tegas, dan sangat sehari-hari dengan cara yang sangat mirip dengan suara manusia. Anda dapat menggunakan suara-suara ini sebagai asisten pelanggan yang berpengetahuan luas, pelatih virtual, atau pengiklan dengan pidato sintetis yang hampir manusiawi.

catatan

Teknologi canggih yang mendasari suara-suara ini termasuk dalam paradigma AI generatif untuk pemodelan bahasa dan suara. Efek samping dari teknologi ini adalah bahwa setiap pembaruan pada data pelatihan dan model dapat menghasilkan sedikit variasi pada cara suara terdengar, bahkan jika kualitas keseluruhannya meningkat dengan pembaruan model. Ini dapat berdampak pada kasus penggunaan dengan bagian konten berbeda yang disintesis dalam jangka waktu yang lama — misalnya, musim podcast.

Suara generatif yang tersedia

Amazon Polly saat ini menawarkan 43 suara dalam varian generatif.

	Bahasa	Kode bahasa	Name/ID	Gender
1	Inggris (Australia)	En-au	Olivia	Perempuan
2	Inggris (Inggris)	id - GB	Amy Brian	Perempuan Laki-laki
3	Inggris (India)	En-in	Kajal	Perempuan
4	Inggris (Irlandia)	I-ie	Niamh	Perempuan
5	Inggris (Selandia Baru)	en-NZ	Aria	Perempuan
6	English (Singaporean)	En-SG	Melati	Perempuan
7	Inggris (Afrika Selatan)	En-za	Ayanda	Perempuan
8	Inggris (US)	en-US	Danielle Joanna Matius Ruth Salli Stephen Tiffany	Perempuan Perempuan Laki-laki Perempuan Perempuan Laki-laki Perempuan
9	Belanda (Belgia)	Nl-be	Lisa	Perempuan
10	Belanda (Belanda)	Nl-NL	Laura	Perempuan
11	Perancis (Belgia)	FR-Be	Isabelle	Perempuan
12	Perancis (Kanada)	FR-Ca	Gabrielle Liam	Perempuan Laki-laki
13	Prancis (Prancis)	FR-fr	Ambre Céline Florian Léa Remi	Perempuan Perempuan Laki-laki Perempuan Laki-laki
14	Jerman (Austria)	De-at	Hannah	Perempuan
15	Jerman (Jerman)	De-de	Daniel Lennart Vicki	Laki-laki Laki-laki Perempuan
16	Jerman (Swiss)	De-ch	Sabrina	Perempuan
17	Italia (Italia)	It-itu	Beatrice Bianca Lorenzo	Perempuan Perempuan Laki-laki
18	Korea (Korea)	Ko-kr	Seoyeon	Perempuan
19	Polandia (Polandia)	PL-PL	Ewa Ola	Perempuan Perempuan
20	Portugis (Brasil)	Pt-BR	Camila	Perempuan
21	Spanyol (Meksiko)	ES-mx	Andrés Mia	Laki-laki Perempuan
22	Spanyol (Spanyol)	ES-es	Lucia Sergio	Perempuan Laki-laki
23	Spanyol (AS)	es-AS	Lupe Pedro	Perempuan Laki-laki

catatan

Biaya suara generatif ditentukan pada halaman informasi harga Amazon Polly.

Kompatibilitas fitur dan wilayah

Suara generatif Amazon Polly tersedia di wilayah berikut:

AS Timur (Virginia N.): us-east-1
Eropa (Frankfurt am Main): eu-central-1
AS Barat (Oregon): us-west-2
Asia Pasifik (Tokyo): ap-northeast-1
Asia Pasifik (Seoul): ap-northeast-2
Asia Pasifik (Singapura): ap-southeast-1
Eropa (London): eu-west-2
Kanada (Tengah): ca-central-1
Eropa (Zürich): eu-central-2
Wilayah lain tidak tersedia

Fitur berikut ini didukung untuk suara generatif:

API Streaming Bidirectional sekarang ditawarkan di Generative Engine dan memungkinkan untuk streaming input dan output pada saat yang bersamaan. API ini tersedia di AWS wilayah berikut: AS Timur (Virginia N.), Eropa (Frankfurt), AS Barat (Oregon), Asia Pasifik (Singapura), Eropa (London), Kanada (Tengah), dan Eropa (Zurich). Kunjungi dokumentasi untuk mempelajari lebih lanjut tentang cara menggunakannya.
Real-time dan operasi sintesis ucapan asinkron.
Gaya berbicara penyiar berita tidak didukung di mesin Generatif.
Banyak (tetapi tidak semua) tag SSML didukung oleh Amazon Polly. Untuk informasi selengkapnya tentang tag NTTS-supported SSML, lihat Tag SSML yang didukung
Seperti halnya suara standar, Anda dapat memilih dari berbagai laju pengambilan sampel untuk mengoptimalkan bandwidth dan kualitas audio untuk aplikasi Anda. Tingkat pengambilan sampel yang valid untuk suara standar dan saraf adalah 8 kHz, 16 kHz, 22 kHz, atau 24 kHz. Default untuk suara standar adalah 22 kHz. Default untuk suara generatif adalah 24 kHz. Amazon Polly mendukung format streaming audio MP3, OGG (Vorbis), dan PCM mentah.

Support untuk menghasilkan tanda ucapan saat ini tidak tersedia.

catatan

Saat ini wilayah Eropa (London), Kanada (Tengah) dan Eropa (Zurich) hanya mendukung suara Generatif berikut: Joanna (en-US), Ruth (en-US), Salli (en-US), Stephen (en-US), Tiffany (en-US), Amy (en-GB), Brian (en-GB), Olivia (en-AU), Florian (fr-FR), Ambre (fr-FR), Lorenzo (IT-IT), Beatrice (IT-IT), Melati (en-SG), Aria (en-NZ), Lennart (De-DE), Vicki (De-de), Sabrina (de-CH), Hannah (De-AT), Niamh (en-Ie), Camila (Pt-BR), Lisa (Nl-be), dan Seoyeon (Ko-kr)

catatan

Dalam hal halusinasi model yang tidak mungkin terjadi, (dan dengan perilaku model mesin Generatif untuk merender token ucapan dengan token) mekanisme penghentian darurat yang diberlakukan sudah ada. Mekanisme bawaan menghentikan model dari rendering ucapan lebih jauh. Fitur keamanan ini didasarkan pada analisis data di mana model memiliki potensi untuk berhalusinasi, biasanya di akhir kalimat.

Mungkin ada kasus di mana model berpikir itu akan berhalusinasi dan kemudian mungkin berakhir memotong kata selama langkah generasi, sehingga merender setengah kata. Ini berpotensi menghasilkan hasil yang tidak pantas.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Mesin suara

Long-form mesin