Tipps zur Verwaltung der Limits für Modell-Tokens

Hinweis: Die Lösung versucht nicht direkt, die durch verschiedene Faktoren auferlegten Token-Limits zu verwalten LLMs. Testen Sie und stellen Sie sicher, dass Ihre Eingabeaufforderung innerhalb der vom Modellanbieter festgelegten verfügbaren Grenzwerte bleibt.

Versuchen Sie Folgendes, um die Größe der Eingabeaufforderungen zu kontrollieren:

Machen Sie sich mit den Einschränkungen vertraut, die das Modell, das Sie verwenden möchten, auferlegt. Diese Werte können sich je nach Modell erheblich unterscheiden. Daher ist es wichtig, dass Sie wissen, wie hoch Ihr verfügbares Budget ist, bevor Sie beginnen.
Denken Sie bei Ihrer ersten Aufforderung an dieses Budget und überlegen Sie, wie viel Sie für dynamische Elemente der Aufforderung sparen möchten. Zum Beispiel Benutzereingaben, Chat-Verlauf, Dokumentauszüge usw.
Legen Sie auf der Seite zur Konfiguration der Eingabeaufforderung ein Limit für die Größe des nachfolgenden Verlaufs fest, um die Anzahl der Konversationsrunden zu begrenzen, die in der Aufforderung enthalten sind.
Legen Sie im Konfigurationsassistenten der Knowledge Base Beschränkungen für die Rückgabe von Dokumenten fest. Sie müssen versuchen, das richtige Gleichgewicht zwischen der Bereitstellung von ausreichend Kontext für das LLM zur Ausführung der Aufgabe zu finden, aber nicht so sehr, dass die Token-Limits überschritten oder die Latenz negativ beeinflusst wird.
Lassen Sie etwas Puffer übrig. Planen Sie nicht für den typischen Fall ein, sondern denken Sie über Randfälle wie lange Eingabeabfragen, umfangreiche Dokumentauszüge oder lange Konversationen nach und experimentieren Sie mit ihnen.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Workflow Builder konfigurieren

Schritte zum Erstellen eines MCP-Server-Docker-Images