Anwendungsfall in Textform

Streaming-Unterstützung

In einer Chat-Anwendung ist die Latenz eine wichtige Kennzahl, um eine reaktionsschnelle Benutzererfahrung zu ermöglichen. Die Möglichkeit, dass LLM-Schlussfolgerungen von Sekunden bis Minuten dauern können, stellt die Frage, wie Inhalte den Kunden am besten zur Verfügung gestellt werden können, vor Herausforderungen. Aus diesem Grund ermöglichen mehrere LLM-Anbieter das Streamen von Antworten zurück an den Anrufer. Anstatt zu warten, bis die gesamte Inferenz abgeschlossen ist, bevor eine Antwort zurückgegeben wird, kann jedes Token zurückgegeben werden, wenn es verfügbar ist.

Um die Verwendung dieser Funktion zu unterstützen, wurde der Text-Anwendungsfall so konzipiert, dass eine WebSocket API zur Unterstützung des Chat-Erlebnisses verwendet wird. Dies WebSocket wird über API Gateway bereitgestellt. Die Verwendung einer WebSocket API ermöglicht es, zu Beginn einer Chat-Sitzung eine Verbindung herzustellen und Antworten über diesen Socket zu streamen. Dadurch können Frontend-Anwendungen eine bessere Benutzererfahrung bieten.

Anmerkung

Selbst wenn ein Modell Streaming-Unterstützung bietet, bedeutet dies nicht unbedingt, dass die Lösung Antworten über die WebSocket API zurückstreamen kann. Die Lösung muss eine benutzerdefinierte Logik aktivieren, um Streaming für jeden Modellanbieter zu unterstützen. Wenn Streaming verfügbar ist, können Admin-Benutzer enable/disable diese Funktion zum Zeitpunkt der Bereitstellung nutzen.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Bereitstellungs-Dashboard

So funktioniert die Generative AI Application Builder auf AWS-Lösung