Beispiele für Bewertungsrezepte

Diese Rezepte ermöglichen es Ihnen, die grundlegenden Funktionen von Amazon-Nova-Modellen anhand einer umfassenden Suite von reinen Text-Benchmarks zu bewerten. Sie werden im Format xxx_general_text_benchmark_eval.yaml bereitgestellt.

Diese Rezepte ermöglichen es Ihnen, Ihren eigenen Datensatz für das Benchmarking zu verwenden und die Modellergebnisse anhand verschiedener Arten von Metriken mit Referenzantworten zu vergleichen. Sie werden im Format xxx_bring_your_own_dataset_eval.yaml bereitgestellt.

Im Folgenden sind die Anforderungen für die Verwendung Ihres eigenen Datensatzes aufgeführt:

Anforderungen an das Dateiformat
- Sie müssen eine einzige gen_qa.jsonl-Datei mit Bewertungsbeispielen beifügen.
- Ihr Datensatz muss an einen S3-Speicherort hochgeladen werden, an dem der SageMaker Schulungsjob darauf zugreifen kann.
- Die Datei muss dem erforderlichen Schemaformat für einen allgemeinen Q&A-Datensatz entsprechen.
Anforderungen an das Schemaformat – jede Zeile in der JSONL-Datei muss ein JSON-Objekt mit den folgenden Feldern sein:
- query: (erforderlich) Zeichenfolge, die die Frage oder Anweisung enthält, für die eine Antwort erforderlich ist
- response: (erforderlich) Zeichenfolge, die die erwartete Modellausgabe enthält
- system: (optional) Zeichenfolge, die den System-Prompt enthält, der vor der Verarbeitung der Abfrage das Verhalten, die Rolle oder die Persönlichkeit des KI-Modells festlegt
- metadata: (Optional) Zeichenfolge, die Metadaten enthält, die dem Eintrag zu Tagging-Zwecken zugeordnet sind.

Hier ein Beispieleintrag zur Verwendung des eigenen Datensatzes


{
   "system":"You are a english major with top marks in class who likes to give minimal word responses: ",
   "query":"What is the symbol that ends the sentence as a question",
   "response":"?"
}
{
   "system":"You are a pattern analysis specialist that provides succinct answers: ",
   "query":"What is the next number in this series? 1, 2, 4, 8, 16, ?",
   "response":"32"
}
{
   "system":"You have great attention to detail that follows instructions accurately: ",
   "query":"Repeat only the last two words of the following: I ate a hamburger today and it was kind of dry",
   "response":"of dry"
}

Um Ihren benutzerdefinierten Datensatz zu verwenden, ändern Sie Ihr Bewertungsrezept mit den folgenden Pflichtfeldern, verändern Sie jedoch nicht den Inhalt:


evaluation:
  task: gen_qa
  strategy: gen_qa
  metric: all

Die folgenden Einschränkungen gelten:

Pro Bewertung ist nur eine JSONL-Datei zulässig.
Die Datei muss strikt dem definierten Schema folgen.
Begrenzung der Kontextlänge: Für jede Stichprobe im Datensatz sollte die Kontextlänge (einschließlich System- und Abfrageaufforderungen) weniger als 3,5 KB betragen.

Amazon Nova LLM-as-a-Judge ist eine Modellbewertungsfunktion, mit der Kunden die Qualität der Antworten eines Modells mit einer Antwort aus einem Basismodell anhand eines benutzerdefinierten Datensatzes vergleichen können. Sie verwendet einen Datensatz mit Prompts, Basisantworten und Herausforderungsantworten und stellt anhand eines Nova-Judge-Modells eine auf der Bradley-Terry-Wahrscheinlichkeit basierende Gewinnratenmetrik mit paarweisen Vergleichen bereit.

Die Rezepte werden im Format xxx_llm_judge_eval.yaml bereitgestellt.

Dies sind die Anforderungen für LLM-as-a-Judge:

Anforderungen an das Dateiformat
- Fügen Sie eine einzige llm_judge.jsonl-Datei mit Bewertungsbeispielen hinzu. Der Dateiname muss llm_judge.jsonl lauten.
- Ihr Datensatz muss an einen S3-Standort hochgeladen werden, auf den SageMaker AI SageMaker HyperPod RIG zugreifen kann.
- Die Datei muss dem für den llm_judge.jsonl-Datensatz erforderlichen Schemaformat entsprechen.
- Der Eingabedatensatz sollte sicherstellen, dass alle Datensätze eine Kontextlänge von weniger als 12 000 haben.
Anforderungen an das Schemaformat – jede Zeile in der JSONL-Datei muss ein JSON-Objekt mit den folgenden Feldern sein:
- prompt: (erforderlich) eine Zeichenfolge, die den Prompt für die generierte Antwort enthält
- response_A: eine Zeichenfolge, die die Basisantwort enthält
- response_B: eine Zeichenfolge, die die alternative Antwort enthält, die mit der Basisantwort verglichen wird

Hier ein Beispieleintrag für LLM-as-a-Judge


{
"prompt": "What is the most effective way to combat climate change?",
"response_A": "The most effective way to combat climate change is through a combination of transitioning to renewable energy sources and implementing strict carbon pricing policies. This creates economic incentives for businesses to reduce emissions while promoting clean energy adoption.",
"response_B": "We should focus on renewable energy. Solar and wind power are good. People should drive electric cars. Companies need to pollute less."
}
{
"prompt": "Explain how a computer's CPU works",
"response_A": "CPU is like brain of computer. It does math and makes computer work fast. Has lots of tiny parts inside.",
"response_B": "A CPU (Central Processing Unit) functions through a fetch-execute cycle, where instructions are retrieved from memory, decoded, and executed through its arithmetic logic unit (ALU). It coordinates with cache memory and registers to process data efficiently using binary operations."
}
{
"prompt": "How does photosynthesis work?",
"response_A": "Plants do photosynthesis to make food. They use sunlight and water. It happens in leaves.",
"response_B": "Photosynthesis is a complex biochemical process where plants convert light energy into chemical energy. They utilize chlorophyll to absorb sunlight, combining CO2 and water to produce glucose and oxygen through a series of chemical reactions in chloroplasts."
}

Um Ihren benutzerdefinierten Datensatz zu verwenden, ändern Sie Ihr Bewertungsrezept mit den folgenden Pflichtfeldern, verändern Sie jedoch nicht den Inhalt:


evaluation:
  task: llm_judge
  strategy: judge
  metric: all

Die folgenden Einschränkungen gelten:

Pro Bewertung ist nur eine JSONL-Datei zulässig.
Die Datei muss strikt dem definierten Schema folgen.
Die Modelle von Amazon Nova Judge sind für die Spezifikationen aller Modellfamilien (d. h. Lite, Micro und Pro) identisch.
Benutzerdefinierte Judge-Modelle werden derzeit nicht unterstützt.
Begrenzung der Kontextlänge: Für jede Stichprobe im Datensatz sollte die Kontextlänge (einschließlich System- und Abfrageaufforderungen) weniger als 7 KB betragen.

Nova LLM Judge for multi-modal (Bild), kurz für Nova MM_LLM Judge, ist eine Funktion zur Modellbewertung, mit der Sie die Qualität der Antworten eines Modells anhand eines benutzerdefinierten Datensatzes mit den Antworten eines Basismodells vergleichen können. Es akzeptiert einen Datensatz, der Eingabeaufforderungen, Basisantworten und Challenger-Antworten sowie Bilder in Form einer Base64-kodierten Zeichenfolge enthält, und verwendet dann ein Nova Judge-Modell, um durch paarweise Vergleiche eine Gewinnratenmetrik bereitzustellen, die auf der Bradley-Terry-Wahrscheinlichkeit basiert. Rezeptformat: xxx_mm_llm_judge _eval.yaml.

Anforderungen an den Nova-LLM-Datensatz

Dateiformat:

Eine einzige mm_llm_judge.jsonl-Datei mit Bewertungsbeispielen. Der Dateiname muss exakt sein. llm_judge.jsonl
Sie müssen Ihren Datensatz an einen S3-Speicherort hochladen, an dem SageMaker Training Jobs darauf zugreifen kann.
Die Datei muss dem für den mm_llm_judge-Datensatz erforderlichen Schemaformat entsprechen.
Der Eingabedatensatz sollte sicherstellen, dass alle Datensätze eine Kontextlänge von weniger als 12 k haben, mit Ausnahme des Bildattributs.

Schemaformat – Jede Zeile in der .jsonl-Datei muss ein JSON-Objekt mit den folgenden Feldern sein.

Pflichtfelder

prompt: Zeichenfolge, die den Prompt für die generierte Antwort enthält

images: Array, das eine Liste von Objekten mit Datenattributen enthält (Werte sind Base64-kodierte Bildzeichenfolgen).

response_A: Zeichenfolge, die die Basisantwort enthält

response_B: Zeichenfolge, die die alternative Antwort enthält, die mit der Basisantwort verglichen wird

Beispieleintrag

Aus Gründen der besseren Lesbarkeit enthält das folgende Beispiel neue Zeilen und Einrückungen, aber im eigentlichen Datensatz sollte sich jeder Datensatz in einer einzigen Zeile befinden.


{
  "prompt": "what is in the image?",
  "images": [
    {
      "data": "data:image/jpeg;Base64,/9j/2wBDAAQDAwQDAwQEAwQFBAQFBgo..."
    }
  ],
  "response_A": "a dog.",
  "response_B": "a cat.",
}
{
  "prompt": "how many animals in echo of the images?",
  "images": [
    {
      "data": "data:image/jpeg;Base64,/9j/2wBDAAQDAwQDAwQEAwQFBAQFBgo..."
    },
    {
      "data": "data:image/jpeg;Base64,/DKEafe3gihn..."
    }
  ],
  "response_A": "The first image contains one cat and the second image contains one dog",
  "response_B": "The first image has one aminal and the second has one animal",
}

Um Ihren benutzerdefinierten Datensatz zu verwenden, ändern Sie Ihr Bewertungsrezept mit den folgenden Pflichtfeldern, verändern Sie jedoch nicht den Inhalt:


evaluation:
  task: mm_llm_judge
  strategy: judge
  metric: all

Einschränkungen

Pro Bewertung ist nur eine .jsonl-Datei zulässig.
Die Datei muss strikt dem definierten Schema folgen.
Nova MM Judge-Modelle unterstützen nur Bildreferenzen.
Die Nova MM Judge-Modelle sind in allen Amazon Nova Lite-Spezifikationen identisch.
Benutzerdefinierte Judge-Modelle werden derzeit nicht unterstützt.
Der Amazon S3 S3-Image-URI wird nicht unterstützt.
Der Eingabedatensatz sollte sicherstellen, dass alle Datensätze eine Kontextlänge von weniger als 12 k haben, mit Ausnahme des Bildattributs.

Rubric Judge ist ein erweitertes LLM-as-a-judge Bewertungsmodell, das auf Nova 2.0 Lite basiert. Im Gegensatz zum ursprünglichen Richtermodell, das nur Präferenzurteile (A>B, B>A oder Unentschieden) vorsieht, generiert Rubric Judge dynamisch benutzerdefinierte Bewertungskriterien, die auf jede Aufforderung zugeschnitten sind, und weist detaillierte Bewertungen für mehrere Dimensionen zu.

Die wichtigsten Funktionen:

Dynamische Kriteriengenerierung: Erstellt automatisch relevante Bewertungsdimensionen auf der Grundlage der Eingabeaufforderung
Gewichtete Bewertung: Weist jedem Kriterium Wichtigkeitsgewichte zu, um dessen relative Signifikanz widerzuspiegeln
Granulare Bewertung: Stellt detaillierte Punktzahlen auf binärer (Wahr/Falsch) oder Skala (1-5) für jedes Kriterium bereit
Qualitätskennzahlen: Berechnet kontinuierliche Qualitätswerte (Skala 0-1), die das Ausmaß der Unterschiede zwischen den Antworten quantifizieren

Vom Modell generiertes Beispielkriterium:


price_validation:
  description: "The response includes validation to ensure price is a positive value."
  type: "scale"
  weight: 0.3

Das Modell bewertet beide Antworten anhand aller generierten Kriterien und verwendet dann diese Punktzahlen auf Kriterienebene als Grundlage für die endgültige Präferenzentscheidung.

Konfiguration des Rezepts

Rezept für Rubrik Judge

Aktiviere Rubric Judge, indem task: rubric_llm_judge du in deinem Rezept Folgendes eingibst:


run:
  name: nova-eval-job-name                              # [MODIFIABLE] Unique identifier for your evaluation job
  model_type: amazon.nova-2-lite-v1:0:256k              # [FIXED] Rubric Judge model type
  model_name_or_path: "nova-lite-2/prod"                # [FIXED] Path to model checkpoint or identifier
  replicas: 1                                           # [MODIFIABLE] Number of replicas for SageMaker Training job
  data_s3_path: ""                                      # [FIXED] Leave empty for SageMaker Training job
  output_s3_path: ""                                    # [FIXED] Leave empty for SageMaker Training job

evaluation:
  task: rubric_llm_judge                                # [FIXED] Evaluation task - enables Rubric Judge
  strategy: judge                                       # [FIXED] Evaluation strategy
  metric: all                                           # [FIXED] Metric calculation method

inference:
  max_new_tokens: 12000                                 # [MODIFIABLE] Maximum tokens to generate
  top_k: -1                                             # [MODIFIABLE] Top-k sampling parameter
  top_p: 1.0                                            # [MODIFIABLE] Nucleus sampling parameter
  temperature: 0                                        # [MODIFIABLE] Sampling temperature (0 = deterministic)

Originalrezept für LLM als Judge (zum Vergleich)

Das ursprüngliche Richtermodell verwendettask: llm_judge:


run:
  name: eval-job-name                                   # [MODIFIABLE] Unique identifier for your evaluation job
  model_type: amazon.nova-micro-v1:0:128k               # [FIXED] Model type
  model_name_or_path: "nova-micro/prod"                 # [FIXED] Path to model checkpoint or identifier
  replicas: 1                                           # [MODIFIABLE] Number of replicas for SageMaker Training job
  data_s3_path: ""                                      # [FIXED] Leave empty for SageMaker Training job
  output_s3_path: ""                                    # [FIXED] Leave empty for SageMaker Training job

evaluation:
  task: llm_judge                                       # [FIXED] Original judge task
  strategy: judge                                       # [FIXED] Evaluation strategy
  metric: all                                           # [FIXED] Metric calculation method

inference:
  max_new_tokens: 12000                                 # [MODIFIABLE] Maximum tokens to generate
  top_k: -1                                             # [MODIFIABLE] Top-k sampling parameter
  top_p: 1.0                                            # [MODIFIABLE] Nucleus sampling parameter
  temperature: 0                                        # [MODIFIABLE] Sampling temperature (0 = deterministic)

Format des Eingabedatensatzes

Das Format des Eingabedatensatzes ist identisch mit dem ursprünglichen Richtermodell:

Erforderliche Felder:

prompt: Zeichenfolge, die die Eingabeaufforderung und Anweisungen enthält
response_A: Zeichenfolge, die die Ausgabe des Basismodells enthält
response_B: Zeichenfolge, die die benutzerdefinierte Modellausgabe enthält

Beispieldatensatz (JSONL-Format):


{"prompt": "What is the most effective way to combat climate change?", "response_A": "The most effective way to combat climate change is through a combination of transitioning to renewable energy sources and implementing strict carbon pricing policies. This creates economic incentives for businesses to reduce emissions while promoting clean energy adoption.", "response_B": "We should focus on renewable energy. Solar and wind power are good. People should drive electric cars. Companies need to pollute less."}
{"prompt": "Explain how a computer's CPU works", "response_A": "CPU is like brain of computer. It does math and makes computer work fast. Has lots of tiny parts inside.", "response_B": "A CPU (Central Processing Unit) functions through a fetch-execute cycle, where instructions are retrieved from memory, decoded, and executed through its arithmetic logic unit (ALU). It coordinates with cache memory and registers to process data efficiently using binary operations."}
{"prompt": "How does photosynthesis work?", "response_A": "Plants do photosynthesis to make food. They use sunlight and water. It happens in leaves.", "response_B": "Photosynthesis is a complex biochemical process where plants convert light energy into chemical energy. They utilize chlorophyll to absorb sunlight, combining CO2 and water to produce glucose and oxygen through a series of chemical reactions in chloroplasts."}

Anforderungen an das Format:

Jeder Eintrag muss ein einzeiliges JSON-Objekt sein
Trennen Sie Einträge durch Zeilenumbrüche
Folgen Sie der genauen Feldbenennung, wie in den Beispielen gezeigt

Ergebnis der Bewertung

Struktur der Ausgabe

Rubric Judge bietet im Vergleich zum ursprünglichen Richtermodell verbesserte Bewertungskennzahlen:


{
  "config_general": {
    "lighteval_sha": "string",
    "num_fewshot_seeds": "int",
    "max_samples": "int | null",
    "job_id": "int",
    "start_time": "float",
    "end_time": "float",
    "total_evaluation_time_secondes": "string",
    "model_name": "string",
    "model_sha": "string",
    "model_dtype": "string | null",
    "model_size": "string"
  },
  "results": {
    "custom|rubric_llm_judge_judge|0": {
      "a_scores": "float",
      "a_scores_stderr": "float",
      "b_scores": "float",
      "b_scores_stderr": "float",
      "ties": "float",
      "ties_stderr": "float",
      "inference_error": "float",
      "inference_error_stderr": "float",
      "score": "float",
      "score_stderr": "float",
      "weighted_score_A": "float",
      "weighted_score_A_stderr": "float",
      "weighted_score_B": "float",
      "weighted_score_B_stderr": "float",
      "score_margin": "float",
      "score_margin_stderr": "float",
      "winrate": "float",
      "lower_rate": "float",
      "upper_rate": "float"
    }
  },
  "versions": {
    "custom|rubric_llm_judge_judge|0": "int"
  }
}

Neue Metriken in Rubrik Judge

Die folgenden sechs Kennzahlen sind einzigartig für Rubric Judge und ermöglichen eine detaillierte Qualitätsbeurteilung:

Metrik	Description
Weighted_Score_A	Durchschnittlicher normalisierter Qualitätsfaktor für Response_A für alle modellgenerierten Bewertungskriterien. Die Ergebnisse werden nach der Wichtigkeit der Kriterien gewichtet und auf eine Skala von 0 bis 1 normalisiert (höher = bessere Qualität)
Weighted_Score_A_StdErr	Standardfehler des Mittelwerts für Weighted_Score_A, was auf statistische Unsicherheit hinweist
Weighted_Score_B	Durchschnittlicher normalisierter Qualitätsfaktor für Response_B für alle modellgenerierten Bewertungskriterien. Die Ergebnisse werden nach der Wichtigkeit der Kriterien gewichtet und auf eine Skala von 0 bis 1 normalisiert (höher = bessere Qualität)
Weighted_Score_B_StdErr	Standardfehler des Mittelwerts für Weighted_Score_B, was auf statistische Unsicherheit hinweist
score_margin	Unterschied zwischen gewichteten Ergebnissen (berechnet als Weighted_Score_A — Weighted_Score_B). Bereich: -1,0 bis 1,0. Positiv = Antwort_A ist besser; negativ = Antwort_B ist besser; nahe Null = ähnliche Qualität
score_margin_stderr	Standardfehler des Mittelwerts für score_margin, was auf eine Unsicherheit bei der Messung von Qualitätsunterschieden hinweist

Kennzahlen zur gewichteten Punktzahl verstehen

Zweck: Gewichtete Werte ermöglichen kontinuierliche Qualitätsmessungen, die binäre Präferenzurteile ergänzen und so tiefere Einblicke in die Modellleistung ermöglichen.

Wesentliche Unterschiede zum ursprünglichen Richter:

Ursprünglicher Richter: Gibt nur diskrete Präferenzen aus (A>B, B>A, A=B)
Rubrik Judge: Gibt sowohl Präferenzen als auch kontinuierliche Qualitätswerte (Skala 0-1) auf der Grundlage benutzerdefinierter Kriterien aus

Interpretation von score_margin:

score_margin = -0.128: Response_B erzielte 12,8 Prozentpunkte mehr als Response_A
|score_margin| < 0.1: Geringer Qualitätsunterschied (knappe Entscheidung)
|score_margin| > 0.2: Deutlicher Qualitätsunterschied (sichere Entscheidung)

Anwendungsfälle:

Modellverbesserung: Identifizieren Sie bestimmte Bereiche, in denen Ihr Modell unterdurchschnittlich abschneidet
Quantifizierung der Qualität: Messen Sie das Ausmaß von Leistungslücken, nicht nur Kennzahlen win/loss
Vertrauensbeurteilung: Unterscheiden Sie zwischen knappen Entscheidungen und deutlichen Qualitätsunterschieden

Wichtig

Endgültige Urteile basieren immer noch auf den ausdrücklichen Präferenzbezeichnungen des Richtermodells, um eine ganzheitliche Argumentation zu wahren und eine angemessene Minderung von Positionsverzerrungen durch Bewertung sicherzustellen. forward/backward Gewichtete Punktzahlen dienen als Instrumente zur Beobachtung und nicht als Ersatz für das erste Urteil.

Berechnungsmethodik

Die gewichteten Punktzahlen werden nach dem folgenden Verfahren berechnet:

Kriteriendaten extrahieren: Analysieren Sie die YAML-Ausgabe des Richters, um die Punktzahlen und Gewichtungen der Kriterien zu extrahieren
Ergebnisse normalisieren:
- Kriterien vom Typ Skala (1-5): Durch Berechnung auf 0-1 normalisieren (score - 1) / 4
- Binäre Kriterien (wahr/falsch): In 1,0/0,0 umwandeln
Gewichtungen anwenden: Multiplizieren Sie jedes normalisierte Ergebnis mit der Gewichtung des Kriteriums
Aggregieren: Summieren Sie alle gewichteten Werte für jede Antwort
Marge berechnen: Berechne score_margin = weighted_score_A - weighted_score_B

Beispiel: Wenn Antworte_A eine gewichtete Summe von 0,65 und Antworte_B eine gewichtete Summe von 0,78 hat, score_margin wäre das -0,13, was bedeutet, dass Antworte_B bei allen gewichteten Kriterien eine um 13 Prozentpunkte höhere Qualität aufweist.

Unterstützung von Argumentationsmodellen

Die Unterstützung von Argumentationsmodellen ermöglicht die Evaluierung mit Hilfe von Nova-Modellen, die eine explizite interne Argumentation durchführen, bevor endgültige Antworten generiert werden. Diese Funktion nutzt die Steuerung auf API-Ebene über den reasoning_effort Parameter, um die Argumentationsfunktion dynamisch zu aktivieren oder zu deaktivieren, wodurch möglicherweise die Antwortqualität bei komplexen Analyseaufgaben verbessert wird.

Unterstützte Modelle:

amazon.nova-2-lite-v 1:0:256 k

Konfiguration des Rezepts

Ermöglichen Sie die Argumentation, indem Sie den reasoning_effort Parameter zum inference Abschnitt Ihres Rezepts hinzufügen:


run:
  name: eval-job-name                                    # [MODIFIABLE] Unique identifier for your evaluation job
  model_type: amazon.nova-2-lite-v1:0:256k               # [FIXED] Must be a reasoning-supported model
  model_name_or_path: nova-lite-2/prod                   # [FIXED] Path to model checkpoint or identifier
  replicas: 1                                            # [MODIFIABLE] Number of replicas for SageMaker Training job
  data_s3_path: ""                                       # [MODIFIABLE] Leave empty for SageMaker Training job; optional for  job
  output_s3_path: ""                                     # [MODIFIABLE] Output path for  job (not compatible with SageMaker Training jobs)

evaluation:
  task: mmlu                                             # [MODIFIABLE] Evaluation task
  strategy: generate                                     # [MODIFIABLE] Evaluation strategy
  metric: all                                            # [MODIFIABLE] Metric calculation method

inference:
  reasoning_effort: high                                 # [MODIFIABLE] Enables reasoning mode; options: low/medium/high or null to disable
  max_new_tokens: 200                                    # [MODIFIABLE] Maximum tokens to generate
  top_k: 50                                              # [MODIFIABLE] Top-k sampling parameter
  top_p: 1.0                                             # [MODIFIABLE] Nucleus sampling parameter
  temperature: 0                                         # [MODIFIABLE] Sampling temperature (0 = deterministic)

Verwenden Sie den Parameter reasoning_effort

Der reasoning_effort Parameter steuert das Argumentationsverhalten für Modelle, die zur Argumentation fähig sind.

Voraussetzungen:

Modellkompatibilität: Wird reasoning_effort nur gesetzt, wenn (derzeit) ein Modell model_type angegeben wird, das zu Argumenten fähig ist amazon.nova-2-lite-v1:0:256k
Fehlerbehandlung: Die Verwendung reasoning_effort mit nicht unterstützten Modellen schlägt fehl mit ConfigValidationError: "Reasoning mode is enabled but model '{model_type}' does not support reasoning. Please use a reasoning-capable model or disable reasoning mode."

Verfügbare Optionen:

Option	Behavior	Token-Limit	Anwendungsfall
null (Standard)	Deaktiviert den Argumentationsmodus	–	Standardauswertung ohne Mehraufwand bei der Argumentation
low	Ermöglicht Argumentation mit Einschränkungen	4.000 Tokens für internes Denken	Szenarien, die eine präzise Argumentation erfordern; optimiert im Hinblick auf Geschwindigkeit und Kosten
high	Ermöglicht Argumentation ohne Einschränkungen	Keine Tokenbegrenzung für internes Denken	Komplexe Probleme, die umfangreiche Analysen und step-by-step Überlegungen erfordern

Wann soll das Denken aktiviert werden

Verwenden Sie den Argumentationsmodus (low,medium, oderhigh) für:

Komplexe Problemlösungsaufgaben (Mathematik, Logikrätsel, Programmieren)
Mehrstufige analytische Fragen, die eine gründliche Argumentation erfordern
Aufgaben, bei denen detaillierte Erklärungen oder step-by-step Überlegungen die Genauigkeit verbessern
Szenarien, in denen die Qualität der Antworten Vorrang vor der Geschwindigkeit hat

Verwenden Sie den Modus ohne Argumentation (Parameter auslassen) für:

Einfache Fragen und Antworten oder sachliche Fragen
Kreative Schreibaufgaben
Wenn schnellere Reaktionszeiten entscheidend sind
Leistungsbenchmarking, bei dem der Argumentationsaufwand ausgeschlossen werden sollte
Kostenoptimierung, wenn Argumentation die Aufgabenleistung nicht verbessert

Fehlerbehebung

Fehler: „Der Argumentationsmodus ist aktiviert, aber das Modell unterstützt kein Argumentieren“

Ursache: Der reasoning_effort Parameter ist auf einen Wert ungleich Null gesetzt, aber der angegebene Wert unterstützt model_type keine Argumentation.

Auflösung

Stellen Sie sicher, dass Ihr Modelltyp amazon.nova-2-lite-v1:0:256k
Wenn Sie ein anderes Modell verwenden, wechseln Sie entweder zu einem Modell, das vernünftiges Denken ermöglicht, oder entfernen Sie den reasoning_effort Parameter aus Ihrem Rezept