Zugriff auf und Analyse der Bewertungsergebnisse

Nachdem Ihr Bewertungsjob erfolgreich abgeschlossen wurde, können Sie mithilfe der Informationen in diesem Abschnitt auf die Ergebnisse zugreifen und sie analysieren. Basierend auf dem im Rezept definierten output_s3_path (wie s3://output_path/) sieht die Ausgabestruktur wie folgt aus:


job_name/
├── eval-result/
│    └── results_[timestamp].json
│    └── inference_output.jsonl (only present for gen_qa)
│    └── details/
│        └── model/
│            └── execution-date-time/
│                └──details_task_name_#_datetime.parquet
└── tensorboard-results/
    └── eval/
        └── events.out.tfevents.[timestamp]

Die Metrikergebnisse werden am angegebenen S3-Ausgabespeicherort s3://output_path/job_name/eval-result/result-timestamp.json gespeichert.

Tensorboard-Ergebnisse werden im S3-Pfad s3://output_path/job_name/eval-tensorboard-result/eval/event.out.tfevents.epoch+ip gespeichert.

Alle Inferenzausgaben, mit Ausnahme von llm_judge und strong_reject, werden im S3-Pfad gespeichert: s3://output_path/job_name/eval-result/details/model/taskname.parquet.

Für gen_qa enthält die Datei inference_output.jsonl die folgenden Felder für jedes JSON-Objekt:

Prompt – der letzte Prompt, der an das Modell gesendet wurde
Inferenz – die unformatierte Inferenzausgabe des Modells
gold — Die Zielantwort aus dem Eingabedatensatz
metadata — Die Metadatenzeichenfolge aus dem Eingabedatensatz, falls angegeben

Führen Sie die folgenden Schritte aus, um Ihre Bewertungskennzahlen in Tensorboard zu visualisieren:

Navigieren Sie zu SageMaker AI Tensorboard.
Wählen Sie S3-Ordner aus.
Fügen Sie Ihren S3-Ordnerpfad hinzu, z. B. s3://output_path/job-name/eval-tensorboard-result/eval.
Warten Sie, bis die Synchronisation abgeschlossen ist.

Die Zeitreihen, Skalare und Textvisualisierungen sind verfügbar.

Wir empfehlen Ihnen, die folgenden bewährten Methoden:

Organisieren Sie Ihre Ausgabepfade nach Modell und Benchmark-Typ.
Halten Sie konsistente Namenskonventionen ein, um die Nachverfolgung zu vereinfachen.
Speichern Sie die extrahierten Ergebnisse an einem sicheren Ort.
Überwachen Sie den TensorBoard Synchronisierungsstatus, um ein erfolgreiches Laden der Daten sicherzustellen.

Sie finden SageMaker HyperPod Auftragsfehlerprotokolle in der CloudWatch Protokollgruppe/aws/sagemaker/Clusters/cluster-id.

Ausgabeformat für Log Probability

Wenn top_logprobs es in Ihren Inferenzeinstellungen konfiguriert ist, enthält die Evaluationsausgabe Protokollwahrscheinlichkeiten auf Tokenebene in den Parquet-Dateien. Jede Token-Position enthält ein Wörterbuch der wichtigsten Token-Kandidaten mit ihren Log-Wahrscheinlichkeiten in der folgenden Struktur:


{
"Ġint": {"logprob_value": -17.8125, "decoded_value": " int"},
"Ġthe": {"logprob_value": -2.345, "decoded_value": " the"}
}

Jeder Token-Eintrag enthält:

logprob_value: Der Log-Wahrscheinlichkeitswert für das Token
decoded_value: Die menschenlesbare dekodierte Zeichenkettendarstellung des Tokens

Das rohe Tokenizer-Token wird als Wörterbuchschlüssel verwendet, um die Einzigartigkeit zu gewährleisten und bietet gleichzeitig eine lesbare Interpretation. decoded_value

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Starten eines Bewertungsjobs

MLflow Überwachung