Kasus penggunaan teks

Dukungan streaming

Dalam aplikasi obrolan, latensi adalah metrik penting untuk memungkinkan pengalaman pengguna yang responsif. Potensi kesimpulan LLM untuk mengambil dari detik ke menit, memberikan tantangan dalam cara terbaik untuk melayani konten kepada pelanggan. Untuk alasan ini, beberapa penyedia LLM mengizinkan respons streaming kembali ke penelepon. Alih-alih menunggu seluruh inferensi selesai sebelum mengembalikan respons, setiap token dapat dikembalikan ketika tersedia.

Untuk mendukung penggunaan fitur ini, kasus penggunaan Teks telah dirancang untuk menggunakan WebSocket API untuk mendukung pengalaman obrolan. Ini WebSocket diterapkan melalui API Gateway. Penggunaan WebSocket API memungkinkan koneksi dibuat di awal sesi obrolan dan agar respons dialirkan melalui soket itu. Hal ini memungkinkan aplikasi frontend untuk memberikan pengalaman pengguna yang lebih baik.

catatan

Bahkan jika model menyediakan dukungan streaming, ini tidak berarti bahwa solusi tersebut akan dapat mengalirkan respons kembali melalui WebSocket API. Ada kebutuhan akan solusi untuk mengaktifkan logika khusus untuk mendukung streaming untuk setiap penyedia model. Jika streaming tersedia, pengguna admin akan dapat menggunakan fitur enable/disable ini pada waktu penerapan.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Dasbor penyebaran

Cara kerja Generative AI Application Builder pada solusi AWS