View a markdown version of this page

Anwendungsfall in Textform - Generativer KI-Anwendungsgenerator auf AWS

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Anwendungsfall in Textform

Streaming-Unterstützung

In einer Chat-Anwendung ist die Latenz eine wichtige Kennzahl, um eine reaktionsschnelle Benutzererfahrung zu ermöglichen. Die Möglichkeit, dass LLM-Schlussfolgerungen von Sekunden bis Minuten dauern können, stellt die Frage, wie Inhalte den Kunden am besten zur Verfügung gestellt werden können, vor Herausforderungen. Aus diesem Grund ermöglichen mehrere LLM-Anbieter das Streamen von Antworten zurück an den Anrufer. Anstatt zu warten, bis die gesamte Inferenz abgeschlossen ist, bevor eine Antwort zurückgegeben wird, kann jedes Token zurückgegeben werden, wenn es verfügbar ist.

Um die Verwendung dieser Funktion zu unterstützen, wurde der Text-Anwendungsfall so konzipiert, dass eine WebSocket API zur Unterstützung des Chat-Erlebnisses verwendet wird. Dies WebSocket wird über API Gateway bereitgestellt. Die Verwendung einer WebSocket API ermöglicht es, zu Beginn einer Chat-Sitzung eine Verbindung herzustellen und Antworten über diesen Socket zu streamen. Dadurch können Frontend-Anwendungen eine bessere Benutzererfahrung bieten.

Anmerkung

Selbst wenn ein Modell Streaming-Unterstützung bietet, bedeutet dies nicht unbedingt, dass die Lösung Antworten über die WebSocket API zurückstreamen kann. Die Lösung muss eine benutzerdefinierte Logik aktivieren, um Streaming für jeden Modellanbieter zu unterstützen. Wenn Streaming verfügbar ist, können Admin-Benutzer enable/disable diese Funktion zum Zeitpunkt der Bereitstellung nutzen.