SynthesizeSpeech dan StartSpeechSynthesisStream dibandingkan

SynthesizeSpeechadalah operasi permintaan-respons. Anda memberikan teks lengkap dalam satu permintaan dan menerima audio yang disintesis penuh dalam satu respons. Ini mendukung semua mesin (standar, saraf, bentuk panjang, generatif), semua format output termasuk tanda bicara, dan memiliki batas teks 6.000 karakter total (yang tidak lebih dari 3.000 karakter dapat ditagih) per permintaan. Respons mengalirkan audio kembali segera setelah byte pertama tersedia. Gunakan operasi ini ketika Anda memiliki semua teks yang tersedia di muka.

StartSpeechSynthesisStreamadalah operasi streaming dua arah. Ini membuka HTTP/2 koneksi di mana Anda mengirim teks secara bertahap dan menerima audio saat disintesis. Tidak ada batas teks per permintaan karena teks dialirkan terus menerus. Ini membutuhkan mesin generatif dan tidak mendukung tanda bicara. Gunakan operasi ini ketika teks tiba secara bertahap dan Anda ingin output audio dimulai sebelum semua input tersedia. Skenario umum meliputi:

AI percakapan dan asisten suara. Model bahasa besar menghasilkan teks respons dalam potongan kecil (token). Teruskan setiap potongan teks ke Amazon Polly saat tiba sehingga pengguna mendengar ucapan saat model masih menghasilkan.
Real-time terjemahan. Sebuah sistem terjemahan menghasilkan teks yang diterjemahkan segmen demi segmen. Streaming setiap segmen untuk sintesis tanpa menunggu terjemahan lengkap selesai.
Long-form konten melebihi SynthesizeSpeech batas. Teks yang lebih panjang dari 6.000 karakter dapat dialirkan terus menerus tanpa membagi menjadi beberapa permintaan atau mengelola batas potongan.

Perbandingan SynthesizeSpeech dan StartSpeechSynthesisStream
Aspek	SynthesizeSpeech	StartSpeechSynthesisStream
Protokol	Request-response	Aliran acara dua arah () HTTP/2
Pengiriman teks	Teks lengkap di badan permintaan	Streaming masukan teks melalui TextEvent pesan
Pengiriman audio	Streaming respons audio melalui badan respons HTTP	Streaming respons audio melalui AudioEvent pesan
Dukungan mesin	standar, saraf, bentuk panjang, generatif	generatif saja
Dukungan SSML	Ya (semua mesin; tag yang didukung bervariasi menurut mesin)	Ya (hanya tag mesin generatif)
Leksikon	Ya	Ya
Tanda bicara	Ya	Tidak
Batas teks	6.000 karakter total (3.000 ditagih) per permintaan	6.000 karakter total (3.000 tagihan) per TextEvent
AWS CLI dukungan	Ya	Tidak (streaming dua arah membutuhkan SDK)

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Streaming dua arah

Mengirim teks dan menerima audio