So konfigurieren Sie die Antwortgenerierung für Argumentationsmodelle mit Knowledge Bases - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

So konfigurieren Sie die Antwortgenerierung für Argumentationsmodelle mit Knowledge Bases

Bestimmte Basismodelle können Modellargumentationen durchführen. Das bedeutet, dass sie eine größere, komplexe Aufgabe in kleinere, einfachere Schritte zerlegt. Dieser Prozess, häufig als Chain-of-Thought-(CoT)-Argumentation bezeichnet, kann die Modellgenauigkeit verbessern, indem dem Modell die Möglichkeit gegeben wird, nachzudenken, bevor es antwortet. Modellargumentation eignet sich am besten für Aufgaben wie mehrstufige Analysen, mathematische Probleme und komplexe Argumentationsaufgaben. Weitere Informationen finden Sie unter So verbessern Sie die Modellantworten mit Modellargumentation.

Anmerkung

Auf dieser Seite wird beschrieben, wie Sie die Argumentationskonfiguration speziell für Wissensdatenbanken für Amazon Bedrock verwenden. Informationen zur Argumentationskonfiguration für den direkten Modellaufruf mithilfe der InvokeModel-API finden Sie unter So verbessern Sie die Modellantworten mit Modellargumentation.

Wenn die Modellargumentation aktiviert ist, kann dies zu einer höheren Genauigkeit und besseren Zitationsergebnissen führen, jedoch auch zu einer Erhöhung der Latenz. Im Folgenden finden Sie einige Überlegungen, wenn Sie die Datenquellen abfragen und Antworten mithilfe von Argumentationsmodellen mit Wissensdatenbanken für Amazon Bedrock generieren.

Argumentationsmodelle

Modellargumentation ist für die folgenden Modelle verfügbar.

Basismodell Modell-ID Anzahl der Token Argumentationskonfiguration
Anthropic Claude Opus 4 anthropic.claude-opus-4-20250514-v1:0 Dieses Modell wird 32 768 Token haben, was sowohl Ausgabe- als auch Argumentationstoken beinhaltet. Die Argumentation kann für dieses Modell mithilfe eines konfigurierbaren Token-Budgets aktiviert oder deaktiviert werden. Standardmäßig ist die Argumentation deaktiviert.
Anthropic Claude Sonnet 4 anthropic.claude-sonnet-4-20250514-v1:0 Dieses Modell wird 65 536 Token haben, was sowohl Ausgabe- als auch Argumentationstoken beinhaltet. Die Argumentation kann für dieses Modell mithilfe eines konfigurierbaren Token-Budgets aktiviert oder deaktiviert werden. Standardmäßig ist die Argumentation deaktiviert.
Anthropic Claude 3.7 Sonnet anthropic.claude-3-7-sonnet-20250219-v1:0 Dieses Modell wird 65 536 Token haben, was sowohl Ausgabe- als auch Argumentationstoken beinhaltet. Die Argumentation kann für dieses Modell mithilfe eines konfigurierbaren Token-Budgets aktiviert oder deaktiviert werden. Standardmäßig ist die Argumentation deaktiviert.
DeepSeek DeepSeek-R1 deepseek.r1-v1:0 Dieses Modell wird über 8 192 Token verfügen, was sowohl Ausgabe- als auch Argumentationstoken beinhaltet. Die Anzahl der Denk-Token kann nicht konfiguriert werden und die maximale Anzahl von Ausgabetoken darf nicht größer als 8 192 sein. Argumentation ist für dieses Modell immer aktiviert. Das Modell unterstützt keine Umschaltung der Argumentationsfähigkeit.

Verwenden der Modellargumentation für Claude 3.7 Sonnet

Anmerkung

Modellargumentation ist für das DeepSeek-R1-Modell immer aktiviert. Das Modell unterstützt keine Umschaltung der Argumentationsfähigkeit.

Bei Verwendung des Claude-3.7-Sonnet-Modells kann die Modellargumentation mithilfe des additionalModelRequestFields-Parameters der RetrieveAndGenerate-API aktiviert oder deaktiviert werden. Dieser Parameter akzeptiert alle Schlüssel-Wert-Paare. Sie können beispielsweise ein reasoningConfig-Feld hinzufügen und einen type-Schlüssel verwenden, um die Argumentation zu aktivieren oder zu deaktivieren, wie unten gezeigt.

{ "input": { "text": "string", "retrieveAndGenerateConfiguration": { "knowledgeBaseConfiguration": { "generationConfiguration": { "additionalModelRequestFields": { "reasoningConfig" : { "type": "enabled", "budget_tokens": INT_VAL, #required when enabled } } }, "knowledgeBaseId": "string", }, "type": "string" }, "sessionId": "string" }

Allgemeine Überlegungen

Im Folgenden finden Sie einige allgemeine Überlegungen zur Verwendung der Argumentationsmodelle für Knowledge Bases.

  • Die Argumentationsmodelle haben bis zu fünf Minuten Zeit, um auf eine Anfrage zu antworten. Wenn das Modell mehr als fünf Minuten benötigt, um die Abfrage zu beantworten, führt dies zu einem Timeout.

  • Um zu vermeiden, dass das Zeitlimit von fünf Minuten überschritten wird, wird die Modellargumentation nur im Generierungsschritt aktiviert, wenn Sie Ihre Abfragen und die Generierung von Antworten konfigurieren. Der Orchestrierungsschritt kann keine Modellargumentation beinhalten.

  • Die Argumentationsmodelle können bis zu 8 192 Token verwenden, um auf Anfragen zu antworten. Dazu gehören sowohl die Ausgabe- als auch die Denktoken. Jede Anfrage, die eine maximale Anzahl von Ausgabetoken über diesem Grenzwert anfordert, führt zu einem Fehler.

Überlegungen zum Abrufen und Generieren von APIs

Im Folgenden finden Sie einige Überlegungen zur Verwendung der RetrieveAndGenerate-API für die Argumentationsmodelle.

  • Wenn die Argumentation für alle Modelle – Einschließlich des Claude-3.7-Sonnet-Modells – Deaktiviert ist, wird die Temperatur standardmäßig auf Null gesetzt. Wenn die Argumentation aktiviert ist, muss die Temperatur auf eins gesetzt werden.

    "inferenceConfig": { "textInferenceConfig": { "maxTokens": 8192, "temperature": 1 } }
  • Der Parameter Top P muss deaktiviert sein, wenn die Argumentation für das Claude-3.7-Sonnet-Modell aktiviert ist. Top P ist ein zusätzliches Modellanforderungsfeld, das das Perzentil der möglichen Token bestimmt, aus denen bei der Generierung ausgewählt werden kann. Standardmäßig beträgt der Top-P-Wert für andere Anthropic-Claude-Modelle eins. Für das Modell Claude 3.7 Sonnet ist dieser Wert standardmäßig deaktiviert.

  • Wenn die Modellargumentation verwendet wird, kann dies zu einer Erhöhung der Latenz führen. Bei der Verwendung dieser API-Operation und der RetrieveAndGenerateStream-API-Operation kann es zu einer Verzögerung beim Empfang der Antwort von der API kommen.