Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Kasus penggunaan teks
Dukungan streaming
Dalam aplikasi obrolan, latensi adalah metrik penting untuk memungkinkan pengalaman pengguna yang responsif. Potensi kesimpulan LLM untuk mengambil dari detik ke menit, memberikan tantangan dalam cara terbaik untuk melayani konten kepada pelanggan. Untuk alasan ini, beberapa penyedia LLM mengizinkan respons streaming kembali ke penelepon. Alih-alih menunggu seluruh inferensi selesai sebelum mengembalikan respons, setiap token dapat dikembalikan ketika tersedia.
Untuk mendukung penggunaan fitur ini, kasus penggunaan Teks telah dirancang untuk menggunakan WebSocket API untuk mendukung pengalaman obrolan. Ini WebSocket diterapkan melalui API Gateway. Penggunaan WebSocket API memungkinkan koneksi dibuat di awal sesi obrolan dan agar respons dialirkan melalui soket itu. Hal ini memungkinkan aplikasi frontend untuk memberikan pengalaman pengguna yang lebih baik.
catatan
Bahkan jika model menyediakan dukungan streaming, ini tidak berarti bahwa solusi tersebut akan dapat mengalirkan respons kembali melalui WebSocket API. Ada kebutuhan akan solusi untuk mengaktifkan logika khusus untuk mendukung streaming untuk setiap penyedia model. Jika streaming tersedia, pengguna admin akan dapat menggunakan fitur enable/disable ini pada waktu penerapan.