Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Anwendungsfall in Textform
Streaming-Unterstützung
In einer Chat-Anwendung ist die Latenz eine wichtige Kennzahl, um eine reaktionsschnelle Benutzererfahrung zu ermöglichen. Die Möglichkeit, dass LLM-Schlussfolgerungen von Sekunden bis Minuten dauern können, stellt die Frage, wie Inhalte den Kunden am besten zur Verfügung gestellt werden können, vor Herausforderungen. Aus diesem Grund ermöglichen mehrere LLM-Anbieter das Streamen von Antworten zurück an den Anrufer. Anstatt zu warten, bis die gesamte Inferenz abgeschlossen ist, bevor eine Antwort zurückgegeben wird, kann jedes Token zurückgegeben werden, wenn es verfügbar ist.
Um die Verwendung dieser Funktion zu unterstützen, wurde der Text-Anwendungsfall so konzipiert, dass eine WebSocket API zur Unterstützung des Chat-Erlebnisses verwendet wird. Dies WebSocket wird über API Gateway bereitgestellt. Die Verwendung einer WebSocket API ermöglicht es, zu Beginn einer Chat-Sitzung eine Verbindung herzustellen und Antworten über diesen Socket zu streamen. Dadurch können Frontend-Anwendungen eine bessere Benutzererfahrung bieten.
Anmerkung
Selbst wenn ein Modell Streaming-Unterstützung bietet, bedeutet dies nicht unbedingt, dass die Lösung Antworten über die WebSocket API zurückstreamen kann. Die Lösung muss eine benutzerdefinierte Logik aktivieren, um Streaming für jeden Modellanbieter zu unterstützen. Wenn Streaming verfügbar ist, können Admin-Benutzer enable/disable diese Funktion zum Zeitpunkt der Bereitstellung nutzen.