View a markdown version of this page

SynthesizeSpeech dan StartSpeechSynthesisStream dibandingkan - Amazon Polly

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

SynthesizeSpeech dan StartSpeechSynthesisStream dibandingkan

SynthesizeSpeechadalah operasi permintaan-respons. Anda memberikan teks lengkap dalam satu permintaan dan menerima audio yang disintesis penuh dalam satu respons. Ini mendukung semua mesin (standar, saraf, bentuk panjang, generatif), semua format output termasuk tanda bicara, dan memiliki batas teks 6.000 karakter total (yang tidak lebih dari 3.000 karakter dapat ditagih) per permintaan. Respons mengalirkan audio kembali segera setelah byte pertama tersedia. Gunakan operasi ini ketika Anda memiliki semua teks yang tersedia di muka.

StartSpeechSynthesisStreamadalah operasi streaming dua arah. Ini membuka HTTP/2 koneksi di mana Anda mengirim teks secara bertahap dan menerima audio saat disintesis. Tidak ada batas teks per permintaan karena teks dialirkan terus menerus. Ini membutuhkan mesin generatif dan tidak mendukung tanda bicara. Gunakan operasi ini ketika teks tiba secara bertahap dan Anda ingin output audio dimulai sebelum semua input tersedia. Skenario umum meliputi:

  • AI percakapan dan asisten suara. Model bahasa besar menghasilkan teks respons dalam potongan kecil (token). Teruskan setiap potongan teks ke Amazon Polly saat tiba sehingga pengguna mendengar ucapan saat model masih menghasilkan.

  • Real-time terjemahan. Sebuah sistem terjemahan menghasilkan teks yang diterjemahkan segmen demi segmen. Streaming setiap segmen untuk sintesis tanpa menunggu terjemahan lengkap selesai.

  • Long-form konten melebihi SynthesizeSpeech batas. Teks yang lebih panjang dari 6.000 karakter dapat dialirkan terus menerus tanpa membagi menjadi beberapa permintaan atau mengelola batas potongan.

Perbandingan SynthesizeSpeech dan StartSpeechSynthesisStream
Aspek SynthesizeSpeech StartSpeechSynthesisStream

Protokol

Request-response

Aliran acara dua arah () HTTP/2

Pengiriman teks

Teks lengkap di badan permintaan

Streaming masukan teks melalui TextEvent pesan

Pengiriman audio

Streaming respons audio melalui badan respons HTTP

Streaming respons audio melalui AudioEvent pesan

Dukungan mesin

standar, saraf, bentuk panjang, generatif

generatif saja

Dukungan SSML

Ya (semua mesin; tag yang didukung bervariasi menurut mesin)

Ya (hanya tag mesin generatif)

Leksikon

Ya

Ya

Tanda bicara

Ya

Tidak

Batas teks

6.000 karakter total (3.000 ditagih) per permintaan

6.000 karakter total (3.000 tagihan) per TextEvent

AWS CLI dukungan

Ya

Tidak (streaming dua arah membutuhkan SDK)