Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Zugriff auf und Analyse der Bewertungsergebnisse
Nachdem Ihr Bewertungsjob erfolgreich abgeschlossen wurde, können Sie mithilfe der Informationen in diesem Abschnitt auf die Ergebnisse zugreifen und sie analysieren. Basierend auf dem im Rezept definierten output_s3_path (wie s3://output_path/) sieht die Ausgabestruktur wie folgt aus:
job_name/ ├── eval-result/ │ └── results_[timestamp].json │ └── inference_output.jsonl (only present for gen_qa) │ └── details/ │ └── model/ │ └── execution-date-time/ │ └──details_task_name_#_datetime.parquet └── tensorboard-results/ └── eval/ └── events.out.tfevents.[timestamp]
Die Metrikergebnisse werden am angegebenen S3-Ausgabespeicherort s3://output_path/job_name/eval-result/result-timestamp.json gespeichert.
Tensorboard-Ergebnisse werden im S3-Pfad s3://output_path/job_name/eval-tensorboard-result/eval/event.out.tfevents.epoch+ip gespeichert.
Alle Inferenzausgaben, mit Ausnahme von llm_judge und strong_reject, werden im S3-Pfad gespeichert: s3://output_path/job_name/eval-result/details/model/taskname.parquet.
Für gen_qa enthält die Datei inference_output.jsonl die folgenden Felder für jedes JSON-Objekt:
-
Prompt – der letzte Prompt, der an das Modell gesendet wurde
-
Inferenz – die unformatierte Inferenzausgabe des Modells
-
gold — Die Zielantwort aus dem Eingabedatensatz
-
metadata — Die Metadatenzeichenfolge aus dem Eingabedatensatz, falls angegeben
Führen Sie die folgenden Schritte aus, um Ihre Bewertungskennzahlen in Tensorboard zu visualisieren:
-
Navigieren Sie zu SageMaker AI Tensorboard.
-
Wählen Sie S3-Ordner aus.
-
Fügen Sie Ihren S3-Ordnerpfad hinzu, z. B.
s3://output_path/job-name/eval-tensorboard-result/eval. -
Warten Sie, bis die Synchronisation abgeschlossen ist.
Die Zeitreihen, Skalare und Textvisualisierungen sind verfügbar.
Wir empfehlen Ihnen, die folgenden bewährten Methoden:
-
Organisieren Sie Ihre Ausgabepfade nach Modell und Benchmark-Typ.
-
Halten Sie konsistente Namenskonventionen ein, um die Nachverfolgung zu vereinfachen.
-
Speichern Sie die extrahierten Ergebnisse an einem sicheren Ort.
-
Überwachen Sie den TensorBoard Synchronisierungsstatus, um ein erfolgreiches Laden der Daten sicherzustellen.
Sie finden SageMaker HyperPod Auftragsfehlerprotokolle in der CloudWatch Protokollgruppe/aws/sagemaker/Clusters/cluster-id.
Ausgabeformat für Log Probability
Wenn top_logprobs es in Ihren Inferenzeinstellungen konfiguriert ist, enthält die Evaluationsausgabe Protokollwahrscheinlichkeiten auf Tokenebene in den Parquet-Dateien. Jede Token-Position enthält ein Wörterbuch der wichtigsten Token-Kandidaten mit ihren Log-Wahrscheinlichkeiten in der folgenden Struktur:
{ "Ġint": {"logprob_value": -17.8125, "decoded_value": " int"}, "Ġthe": {"logprob_value": -2.345, "decoded_value": " the"} }
Jeder Token-Eintrag enthält:
-
logprob_value: Der Log-Wahrscheinlichkeitswert für das Token -
decoded_value: Die menschenlesbare dekodierte Zeichenkettendarstellung des Tokens
Das rohe Tokenizer-Token wird als Wörterbuchschlüssel verwendet, um die Einzigartigkeit zu gewährleisten und bietet gleichzeitig eine lesbare Interpretation. decoded_value