Bewerten Ihres trainierten Modells - Amazon SageMaker AI

Bewerten Ihres trainierten Modells

Ein Bewertungsrezept ist eine YAML-Konfigurationsdatei, die definiert, wie Ihr Amazon-Nova-Modellbewertungsjob ausgeführt wird. Mit diesem Rezept können Sie die Leistung eines Basismodells oder eines trainierten Modells anhand gängiger Benchmarks oder Ihrer eigenen benutzerdefinierten Datensätze bewerten. Metriken können in Amazon S3 oder TensorBoard gespeichert werden. Die Bewertung bietet quantitative Metriken, anhand derer Sie die Modellleistung bei verschiedenen Aufgaben beurteilen können, um festzustellen, ob weitere Anpassungen erforderlich sind.

Die Modellbewertung ist ein Offline-Prozess, bei dem Modelle anhand festgelegter Benchmarks mit vordefinierten Antworten getestet werden. Sie werden nicht in Echtzeit oder anhand von Live-Benutzerinteraktionen bewertet. Für Echtzeitbewertungen können Sie das Modell nach der Bereitstellung auf Amazon Bedrock bewerten, indem Sie die Laufzeit-APIs von Amazon Bedrock aufrufen.

Verfügbare Benchmark-Aufgaben

Es ist ein Beispielcodepaket verfügbar, das demonstriert, wie Benchmark-Metriken mithilfe der SageMaker-AI-Modellbewertungsfunktion für Amazon Nova berechnet werden. Informationen zum Zugriff auf die Codepakete finden Sie unter sample-Nova-lighteval-custom-task.

Hier finden Sie eine Liste unterstützter, verfügbarer Industriestandard-Benchmarks. Sie können die folgenden Benchmarks für den Parameter eval_task angeben:

Benchmark

Modalität

Beschreibung

Metriken

Strategie

Unteraufgabe verfügbar

mmlu

Text

Sprachverständnis für mehrere Aufgaben – testet Wissen in 57 Themen.

Richtigkeit

zs_cot

Ja

mmlu_pro

Text

MMLU – professioneller Bereich – konzentriert sich auf Fachbereiche wie Recht, Medizin, Rechnungswesen und Ingenieurwesen.

Richtigkeit

zs_cot

Nein

bbh

Text

Fortschrittliche Argumentationsaufgaben – eine Sammlung herausfordernder Probleme, die kognitive Fähigkeiten und Fähigkeiten zur Problemlösung auf höherem Niveau auf die Probe stellen.

Richtigkeit

zs_cot

Ja

gpqa

Text

Beantwortung allgemeiner Fragen zur Physik – beurteilt das Verständnis physikalischer Konzepte und die damit verbundenen Fähigkeiten zur Problemlösung.

Richtigkeit

zs_cot

Nein

math

Text

Mathematische Problemlösung – bewertet mathematische Überlegungen in verschiedenen Themenbereichen wie Algebra, Infinitesimalrechnung und Textaufgaben.

exact_match

zs_cot

Ja

strong_reject

Text

Aufgabe zur Qualitätskontrolle – Testet die Fähigkeit des Modells, unangemessene, schädliche oder falsche Inhalte zu erkennen und abzulehnen.

deflection

zs

Ja

IFEval

Text

Bewertung der Anweisungsbefolgung – Prüft, wie genau ein Modell die Anweisungen befolgt und die Aufgaben gemäß den Spezifikationen ausführt.

Richtigkeit

zs

Nein

gen_qa

Text

Benutzerdefinierte Datensatzbewertung – Ermöglicht es Ihnen, Ihren eigenen Datensatz für das Benchmarking zu verwenden und Modellergebnisse mit Referenzantworten anhand von Metriken wie ROUGE und BLEU zu vergleichen.

all

gen_qa

Nein

mmmu

Multimodal

Massive Multidiscipline Multimodal Understanding (MMMU) – Benchmark auf Hochschulebene, bestehend aus Multiple-Choice-Fragen und offenen Fragen aus 30 Disziplinen.

Richtigkeit

zs_cot

Ja

llm_judge

Text

Präferenzvergleich mit LLM-as-a-Judge – Verwendet ein Nova-Judge-Modell, um die Präferenz zwischen gepaarten Antworten (B im Vergleich zu A) für Ihre Prompts zu ermitteln und die Wahrscheinlichkeit zu berechnen, dass B gegenüber A bevorzugt wird.

all

judge

Nein

humaneval

Text

HumanEval – ein Benchmark-Datensatz zur Bewertung der Codegenerierungsfähigkeiten großer Sprachmodelle

pass@1

zs

Nein

Die folgenden mmlu-Unteraufgaben sind verfügbar:

MMLU_SUBTASKS = [ "abstract_algebra", "anatomy", "astronomy", "business_ethics", "clinical_knowledge", "college_biology", "college_chemistry", "college_computer_science", "college_mathematics", "college_medicine", "college_physics", "computer_security", "conceptual_physics", "econometrics", "electrical_engineering", "elementary_mathematics", "formal_logic", "global_facts", "high_school_biology", "high_school_chemistry", "high_school_computer_science", "high_school_european_history", "high_school_geography", "high_school_government_and_politics", "high_school_macroeconomics", "high_school_mathematics", "high_school_microeconomics", "high_school_physics", "high_school_psychology", "high_school_statistics", "high_school_us_history", "high_school_world_history", "human_aging", "human_sexuality", "international_law", "jurisprudence", "logical_fallacies", "machine_learning", "management", "marketing", "medical_genetics", "miscellaneous", "moral_disputes", "moral_scenarios", "nutrition", "philosophy", "prehistory", "professional_accounting", "professional_law", "professional_medicine", "professional_psychology", "public_relations", "security_studies", "sociology", "us_foreign_policy", "virology", "world_religions" ]

Die folgenden bbh-Unteraufgaben sind verfügbar:

BBH_SUBTASKS = [ "boolean_expressions", "causal_judgement", "date_understanding", "disambiguation_qa", "dyck_languages", "formal_fallacies", "geometric_shapes", "hyperbaton", "logical_deduction_five_objects", "logical_deduction_seven_objects", "logical_deduction_three_objects", "movie_recommendation", "multistep_arithmetic_two", "navigate", "object_counting", "penguins_in_a_table", "reasoning_about_colored_objects", "ruin_names", "salient_translation_error_detection", "snarks", "sports_understanding", "temporal_sequences", "tracking_shuffled_objects_five_objects", "tracking_shuffled_objects_seven_objects", "tracking_shuffled_objects_three_objects", "web_of_lies", "word_sorting" ]

Die folgenden math-Unteraufgaben sind verfügbar:

MATH_SUBTASKS = [ "algebra", "counting_and_probability", "geometry", "intermediate_algebra", "number_theory", "prealgebra", "precalculus", ]

Verstehen der Rezeptparameter

Ausführungskonfiguration

Im Folgenden finden Sie eine allgemeine Ausführungskonfiguration und eine Erläuterung der jeweiligen Parameter.

run: name: eval_job_name model_type: amazon.nova-micro-v1:0:128k model_name_or_path: nova-micro/prod replicas: 1 data_s3_path: "" output_s3_path: s3://output_path
  • name: (erforderlich) ein beschreibender Name für Ihren Bewertungsjob. Dies hilft bei der Identifizierung Ihres Jobs in der AWS-Konsole.

  • model_type: (erforderlich) gibt die zu verwendende Amazon-Nova-Modellvariante an. Ändern Sie dieses Feld nicht manuell. Zu den Optionen gehören:

    • amazon.nova-micro-v1:0:128k

    • amazon.nova-lite-v1:0:300k

    • amazon.nova-pro-v1:0:300k

  • model_name_or_path: (erforderlich) der Pfad zum Basismodell oder zum S3-Pfad für den Checkpoint nach dem Training. Zu den Optionen gehören:

    • nova-micro/prod

    • nova-lite/prod

    • nova-pro/prod

    • (S3-Pfad für den Checkpoint nach dem Training) s3://<escrow bucket>/<job id>/outputs/checkpoints

  • replicas: (erforderlich) die Anzahl der Datenverarbeitungs-Instances, die für das verteilte Training verwendet werden sollen. Sie müssen diesen Wert auf 1 setzen, da mehrere Knoten nicht unterstützt werden.

  • data_s3_path: (erforderlich) der S3-Pfad zum Eingabe-Datensatz. Lassen Sie diesen Parameter leer, es sei denn, Sie verwenden das Rezept Eigenen Datensatz verwenden oder LLM-as-a-Judge.

  • output_s3_path: (erforderlich) der S3-Pfad zum Speichern von Artefakten aus der Ausgabebewertung. Beachten Sie, dass der S3-Ausgabe-Bucket von demselben Konto erstellt werden muss, das den Job erstellt.

Bewertungskonfiguration

Im Folgenden finden Sie eine Konfiguration für die Modellbewertung und eine Erläuterung der jeweiligen Parameter.

evaluation: task: mmlu strategy: zs_cot subtask: mathematics metric: accuracy
  • task: (erforderlich) gibt den Bewertungs-Benchmark oder die zu verwendende Aufgabe an.

    Liste unterstützter Aufgaben:

    • mmlu

    • mmlu_pro

    • bbh

    • gpqa

    • math

    • strong_reject

    • gen_qa

    • ifeval

    • mmmu

    • llm_judge

    • humaneval

  • strategy: (erforderlich) definiert den Bewertungsansatz:

    • zs_cot: Zero-shot Chain-of-Thought – ein Ansatz zur Entwicklung großer Sprachmodelle, der schrittweise Überlegungen fördert, ohne dass explizite Beispiele erforderlich sind

    • zs: Zero-shot – ein Ansatz zur Lösung eines Problems ohne vorherige Trainingsbeispiele

    • gen_qa: eine Strategie, die speziell für Rezepte mit eigenem Datensatz entwickelt wurde

    • Judge: eine für Amazon Nova LLM spezifische Strategie als Judge-Rezepte

  • subtask: (optional und entfernbar) legt eine spezifische Unteraufgabe für bestimmte Bewertungsaufgaben fest. Entfernen Sie dies aus Ihrem Rezept, wenn Ihre Aufgabe keine Unteraufgaben hat.

  • metric: (erforderlich) die zu verwendende Bewertungsmetrik

    • accuracy: Prozentsatz der richtigen Antworten

    • exact_match: (für math-Benchmark) gibt die Rate zurück, mit der die eingegebenen vorhergesagten Zeichenketten exakt mit ihren Referenzen übereinstimmen.

    • deflection: (für strong reject-Benchmark) gibt die relative Abweichung vom Basismodell und die Differenz der Signifikanzmetriken zurück.

    • pass@1: (für humaneval-Benchmark) ist eine Metrik, die verwendet wird, um den Prozentsatz der Fälle zu messen, in denen die Vorhersage des Modells mit der höchsten Konfidenz mit der richtigen Antwort übereinstimmt.

    • all: gibt die folgenden Metriken zurück:

      • Gibt für gen_qa und das Benchmarking mit eigenem Datensatz die folgenden Metriken zurück:

        • rouge1: misst die Überlappung von Unigrammen (einzelnen Wörtern) zwischen generiertem Text und Referenztext.

        • rouge2: misst die Überlappung von Bigrammen (zwei aufeinanderfolgenden Wörtern) zwischen generiertem Text und Referenztext.

        • rougeL: misst die längste gemeinsame Teilsequenz zwischen Texten und berücksichtigt Lücken beim Abgleich.

        • exact_match: binärer Wert (0 oder 1), der angibt, ob der generierte Text Zeichen für Zeichen exakt mit dem Referenztext übereinstimmt.

        • quasi_exact_match: ähnlich wie Exact Match, aber weniger strikt, wobei in der Regel Unterschiede zwischen Groß- und Kleinschreibung, Zeichensetzung und Leerzeichen ignoriert werden.

        • f1_score: harmonisches Mittel zwischen Präzision und Erinnerungswert, das die Wortüberschneidung zwischen vorhergesagten Antworten und Referenzantworten misst.

        • f1_score_quasi: ähnlich wie f1_score, jedoch mit weniger striktem Abgleich, bei dem normalisierter Text verglichen und geringfügige Unterschiede ignoriert werden.

        • bleu: misst die Genauigkeit von N-Gramm-Übereinstimmungen zwischen generiertem Text und Referenztext, was häufig bei der Bewertung von Übersetzungen verwendet wird.

      • Gibt für llm_judge und das Benchmarking mit eigenem Datensatz die folgenden Metriken zurück:

        • a_scores: Anzahl der Siege von response_A bei Vorwärts- und Rückwärtsdurchläufen zur Bewertung.

        • a_scores_stderr: Standardfehler von response_A scores bei paarweisen Beurteilungen.

        • b_scores: Anzahl der Siege von response_B bei Vorwärts- und Rückwärtsdurchläufen zur Bewertung.

        • b_scores_stderr: Standardfehler von response_B scores bei paarweisen Beurteilungen.

        • ties: Anzahl der Beurteilungen, bei denen response_A und response_B als gleichwertig bewertet wurden.

        • ties_stderr: Standardfehler von Verbindungen bei paarweisen Beurteilungen.

        • inference_error: Anzahl der Beurteilungen, die nicht richtig bewertet werden konnten.

        • inference_error_stderr: Standardfehler von Inferenzfehlern bei allen Beurteilungen.

        • score: Gesamtpunktzahl basierend auf Siegen aus Vorwärts- und Rückwärtsdurchläufen für response_B.

        • score_stderr: Standardfehler der Gesamtpunktzahl bei paarweisen Beurteilungen.

        • winrate: die Wahrscheinlichkeit, dass response_B gegenüber response_A vorgezogen wird, berechnet anhand der Bradley-Terry-Wahrscheinlichkeit.

        • lower_rate: Untergrenze (2,5. Perzentil) der geschätzten Gewinnrate aus dem Bootstrap-Sampling.

Inferenzkonfiguration

Im Folgenden finden Sie eine Inferenzkonfiguration und eine Erläuterung der jeweiligen Parameter. Alle Parameter sind optional.

inference: max_new_tokens: 200 top_k: -1 top_p: 1.0 temperature: 0
  • max_new_tokens: die maximale Anzahl der zu generierenden Token. Dieser Wert muss eine Ganzzahl sein.

  • top_k: die Anzahl der zu berücksichtigenden Tokens mit der höchsten Wahrscheinlichkeit. Dieser Wert muss eine Ganzzahl sein.

  • top_p: der kumulative Wahrscheinlichkeitsschwellenwert für das Token-Sampling. Dies muss ein Gleitkommazahl zwischen 0,0 und höchstens 1,0 sein.

  • temperature: Zufälligkeit bei der Token-Auswahl. Größere Werte führen zu mehr Zufälligkeit. Verwenden Sie 0, um deterministische Ergebnisse zu erhalten. Dieser Wert muss eine Gleitkommazahl mit einem Mindestwert von 0 sein.

Beachten Sie, dass wir für humaneval die folgende Inferenzkonfiguration empfehlen:

inference: top_k: 1 max_new_tokens: 1600 temperature: 0.0

Beispiele für Bewertungsrezepte

Amazon Nova bietet vier Arten von Bewertungsrezepten, die im GitHub-Repository für HyperPod-Rezepte verfügbar sind.

Allgemeine Text-Benchmark-Rezepte

Diese Rezepte ermöglichen es Ihnen, die grundlegenden Funktionen von Amazon-Nova-Modellen anhand einer umfassenden Suite von reinen Text-Benchmarks zu bewerten. Sie werden im Format xxx_general_text_benchmark_eval.yaml bereitgestellt.

Allgemeines multimodales Benchmark-Rezept

Diese Rezepte ermöglichen es Ihnen, die grundlegenden Funktionen von Amazon-Nova-Modellen anhand einer umfassenden Suite von Multimodalitäts-Benchmarks zu bewerten. Sie werden im Format xxx_general_multi_modal_benchmark_eval.yaml bereitgestellt.

Benchmark-Rezept mit eigenem Datensatz

Diese Rezepte ermöglichen es Ihnen, Ihren eigenen Datensatz für das Benchmarking zu verwenden und die Modellergebnisse anhand verschiedener Arten von Metriken mit Referenzantworten zu vergleichen. Sie werden im Format xxx_bring_your_own_dataset_eval.yaml bereitgestellt.

Im Folgenden sind die Anforderungen für die Verwendung Ihres eigenen Datensatzes aufgeführt:

  • Anforderungen an das Dateiformat

    • Sie müssen eine einzige gen_qa.jsonl-Datei mit Bewertungsbeispielen beifügen.

    • Ihr Datensatz muss an einen S3-Speicherort hochgeladen werden, an dem der SageMaker-AI-Trainingsjob darauf zugreifen kann.

    • Die Datei muss dem erforderlichen Schemaformat für einen allgemeinen Q&A-Datensatz entsprechen.

  • Anforderungen an das Schemaformat – jede Zeile in der JSONL-Datei muss ein JSON-Objekt mit den folgenden Feldern sein:

    • query: (erforderlich) Zeichenfolge, die die Frage oder Anweisung enthält, für die eine Antwort erforderlich ist

    • response: (erforderlich) Zeichenfolge, die die erwartete Modellausgabe enthält

    • system: (optional) Zeichenfolge, die den System-Prompt enthält, der vor der Verarbeitung der Abfrage das Verhalten, die Rolle oder die Persönlichkeit des KI-Modells festlegt

Hier ein Beispieleintrag zur Verwendung des eigenen Datensatzes

{ "system":"You are a english major with top marks in class who likes to give minimal word responses: ", "query":"What is the symbol that ends the sentence as a question", "response":"?" } { "system":"You are a pattern analysis specialist that provides succinct answers: ", "query":"What is the next number in this series? 1, 2, 4, 8, 16, ?", "response":"32" } { "system":"You have great attention to detail that follows instructions accurately: ", "query":"Repeat only the last two words of the following: I ate a hamburger today and it was kind of dry", "response":"of dry" }

Um Ihren benutzerdefinierten Datensatz zu verwenden, ändern Sie Ihr Bewertungsrezept mit den folgenden Pflichtfeldern, verändern Sie jedoch nicht den Inhalt:

evaluation: task: gen_qa strategy: gen_qa metric: all

Die folgenden Einschränkungen gelten:

  • Pro Bewertung ist nur eine JSONL-Datei zulässig.

  • Die Datei muss strikt dem definierten Schema folgen.

  • Begrenzung der Kontextlänge: Für jede Stichprobe im Datensatz sollte die Kontextlänge (einschließlich System- und Abfrage-Prompts) weniger als 3 500 betragen

Benchmark-Rezept für Amazon Nova LLM-as-a-Judge

Amazon Nova LLM-as-a-Judge ist eine Modellbewertungsfunktion, mit der Kunden die Qualität der Antworten eines Modells mit einer Antwort aus einem Basismodell anhand eines benutzerdefinierten Datensatzes vergleichen können. Sie verwendet einen Datensatz mit Prompts, Basisantworten und Herausforderungsantworten und stellt anhand eines Nova-Judge-Modells eine auf der Bradley-Terry-Wahrscheinlichkeit basierende Gewinnratenmetrik mit paarweisen Vergleichen bereit.

Die Rezepte werden im Format xxx_llm_judge_eval.yaml bereitgestellt.

Dies sind die Anforderungen für LLM-as-a-Judge:

  • Anforderungen an das Dateiformat

    • Fügen Sie eine einzige llm_judge.jsonl-Datei mit Bewertungsbeispielen hinzu. Der Dateiname muss llm_judge.jsonl lauten.

    • Ihr Datensatz muss an einen S3-Speicherort hochgeladen werden, auf den SageMaker AI HyperPod RIG zugreifen kann.

    • Die Datei muss dem für den llm_judge.jsonl-Datensatz erforderlichen Schemaformat entsprechen.

    • Der Eingabedatensatz sollte sicherstellen, dass alle Datensätze eine Kontextlänge von weniger als 12 000 haben.

  • Anforderungen an das Schemaformat – jede Zeile in der JSONL-Datei muss ein JSON-Objekt mit den folgenden Feldern sein:

    • prompt: (erforderlich) eine Zeichenfolge, die den Prompt für die generierte Antwort enthält

    • response_A: eine Zeichenfolge, die die Basisantwort enthält

    • response_B: eine Zeichenfolge, die die alternative Antwort enthält, die mit der Basisantwort verglichen wird

Hier ein Beispieleintrag für LLM-as-a-Judge

{ "prompt": "What is the most effective way to combat climate change?", "response_A": "The most effective way to combat climate change is through a combination of transitioning to renewable energy sources and implementing strict carbon pricing policies. This creates economic incentives for businesses to reduce emissions while promoting clean energy adoption.", "response_B": "We should focus on renewable energy. Solar and wind power are good. People should drive electric cars. Companies need to pollute less." } { "prompt": "Explain how a computer's CPU works", "response_A": "CPU is like brain of computer. It does math and makes computer work fast. Has lots of tiny parts inside.", "response_B": "A CPU (Central Processing Unit) functions through a fetch-execute cycle, where instructions are retrieved from memory, decoded, and executed through its arithmetic logic unit (ALU). It coordinates with cache memory and registers to process data efficiently using binary operations." } { "prompt": "How does photosynthesis work?", "response_A": "Plants do photosynthesis to make food. They use sunlight and water. It happens in leaves.", "response_B": "Photosynthesis is a complex biochemical process where plants convert light energy into chemical energy. They utilize chlorophyll to absorb sunlight, combining CO2 and water to produce glucose and oxygen through a series of chemical reactions in chloroplasts." }

Um Ihren benutzerdefinierten Datensatz zu verwenden, ändern Sie Ihr Bewertungsrezept mit den folgenden Pflichtfeldern, verändern Sie jedoch nicht den Inhalt:

evaluation: task: llm_judge strategy: judge metric: all

Die folgenden Einschränkungen gelten:

  • Pro Bewertung ist nur eine JSONL-Datei zulässig.

  • Die Datei muss strikt dem definierten Schema folgen.

  • Die Modelle von Amazon Nova Judge sind für die Spezifikationen aller Modellfamilien (d. h. Lite, Micro und Pro) identisch.

  • Benutzerdefinierte Judge-Modelle werden derzeit nicht unterstützt.

  • Begrenzung der Kontextlänge: Für jede Stichprobe im Datensatz sollte die Kontextlänge (einschließlich System- und Abfrage-Prompts) weniger als 7 000 betragen

Starten eines Bewertungsjobs

Im Folgenden finden Sie einen Vorschlag für die Konfiguration des Bewertungs-Instance-Typs und des Modelltyps:

# Install Dependencies (Helm - https://helm.sh/docs/intro/install/) curl -fsSL -o get_helm.sh https://raw.githubusercontent.com/helm/helm/main/scripts/get-helm-3 chmod 700 get_helm.sh ./get_helm.sh rm -f ./get_helm.sh # Install the HyperPod CLI git clone --recurse-submodules https://github.com/aws/sagemaker-hyperpod-cli.git git checkout -b release_v2 cd sagemaker-hyperpod-cli pip install . # Verify the installation hyperpod --help # Connect to a HyperPod Cluster hyperpod connect-cluster --cluster-name cluster-name # Submit the Job using the recipe for eval # Namespace by default should be kubeflow hyperpod start-job [--namespace namespace] --recipe evaluation/nova/nova_micro_p5_48xl_general_text_benchmark_eval --override-parameters \ '{ "instance_type":"p5d.48xlarge", "container": "708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-evaluation-repo:SM-HP-Eval-latest", "recipes.run.name": custom-run-name, "recipes.run.model_type": model_type, "recipes.run.model_name_or_path" " model name or finetune checkpoint s3uri, "recipes.run.data_s3_path": s3 for input data only for genqa and llm_judge, must be full S3 path that include filename, }' # List jobs hyperpod list-jobs [--namespace namespace] [--all-namespaces] # Getting Job details hyperpod get-job --job-name job-name [--namespace namespace] [--verbose] # Listing Pods hyperpod list-pods --job-name job-name --namespace namespace # Cancel Job hyperpod cancel-job --job-name job-name [--namespace namespace]

Sie sollten den Jobstatus auch über die Konsole des Amazon-EKS-Clusters einsehen können.

Zugriff auf und Analyse der Bewertungsergebnisse

Nachdem Ihr Bewertungsjob erfolgreich abgeschlossen wurde, können Sie mithilfe der Informationen in diesem Abschnitt auf die Ergebnisse zugreifen und sie analysieren. Basierend auf dem im Rezept definierten output_s3_path (wie s3://output_path/) sieht die Ausgabestruktur wie folgt aus:

job_name/ ├── eval-result/ │ └── results_[timestamp].json │ └── inference_output.jsonl (only present for gen_qa) │ └── details/ │ └── model/ │ └── execution-date-time/ │ └──details_task_name_#_datetime.parquet └── tensorboard-results/ └── eval/ └── events.out.tfevents.[timestamp]

Die Metrikergebnisse werden am angegebenen S3-Ausgabespeicherort s3://output_path/job_name/eval-result/result-timestamp.json gespeichert.

Tensorboard-Ergebnisse werden im S3-Pfad s3://output_path/job_name/eval-tensorboard-result/eval/event.out.tfevents.epoch+ip gespeichert.

Alle Inferenzausgaben, mit Ausnahme von llm_judge und strong_reject, werden im S3-Pfad gespeichert: s3://output_path/job_name/eval-result/details/model/taskname.parquet.

Für gen_qa enthält die Datei inference_output.jsonl die folgenden Felder für jedes JSON-Objekt:

  • Prompt – der letzte Prompt, der an das Modell gesendet wurde

  • Inferenz – die unformatierte Inferenzausgabe des Modells

Führen Sie die folgenden Schritte aus, um Ihre Bewertungskennzahlen in Tensorboard zu visualisieren:

  1. Navigieren Sie zu SageMaker AI Tensorboard.

  2. Wählen Sie S3-Ordner aus.

  3. Fügen Sie Ihren S3-Ordnerpfad hinzu, z. B. s3://output_path/job-name/eval-tensorboard-result/eval.

  4. Warten Sie, bis die Synchronisation abgeschlossen ist.

Die Zeitreihen, Skalare und Textvisualisierungen sind verfügbar.

Wir empfehlen Ihnen, die folgenden bewährten Methoden:

  • Organisieren Sie Ihre Ausgabepfade nach Modell und Benchmark-Typ.

  • Halten Sie konsistente Namenskonventionen ein, um die Nachverfolgung zu vereinfachen.

  • Speichern Sie die extrahierten Ergebnisse an einem sicheren Ort.

  • Überwachen Sie den TensorBoard-Synchronisierungsstatus, um ein erfolgreiches Laden der Daten sicherzustellen.

Sie finden HyperPod-Jobfehlerprotokolle in der CloudWatch-Protokollgruppe /aws/sagemaker/Clusters/cluster-id.