Formate für Bewertungsmetriken - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Formate für Bewertungsmetriken

Bewertung der Qualität Ihres Modells anhand dieser metrischen Formate:

  • Zusammenfassung der Modellbewertung

  • MLFlow

  • TensorBoard

Zusammenfassung der Modellevaluierung

Wenn Sie Ihren Bewertungsauftrag einreichen, geben Sie einen AWS S3-Ausgabeort an. SageMaker lädt die JSON-Datei mit der Bewertungszusammenfassung automatisch an den Speicherort hoch. Der S3-Pfad für die Benchmark-Zusammenfassung lautet wie folgt:

s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/eval_results/

Übergeben Sie den AWS S3-Standort

SageMaker Studio
Übergeben Sie den Speicherort des Ausgabeartefakts (AWS S3-URI)
SageMaker Python SDK
evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>", s3_output_path="s3://<bucket-name>/<prefix>/eval/", evaluate_base_model=False ) execution = evaluator.evaluate()

Lesen Sie es direkt als .json vom AWS S3-Standort aus oder visualisieren Sie es automatisch in der Benutzeroberfläche:

{ "results": { "custom|gen_qa_gen_qa|0": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 }, "all": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 } } }
Beispiele für Leistungskennzahlen für einen benutzerdefinierten Gen-QA-Benchmark, visualisiert in Studio SageMaker

MLFlow Protokollierung

Geben Sie Ihren SageMaker MLFlow Ressourcen-ARN ARN

SageMaker Studio verwendet die MLFlow Standard-App, die auf jeder Studio-Domäne bereitgestellt wird, wenn Sie die Funktion zur Modellanpassung zum ersten Mal verwenden. SageMaker Studio verwendet bei der Einreichung von Bewertungsaufträgen den mit der MLflow App verknüpften ARN.

Sie können Ihren Bewertungsauftrag auch einreichen und explizit einen MLFlow Ressourcen-ARN angeben, um Metriken server/app zur Echtzeitanalyse an das zugehörige Tracking zu streamen.

SageMaker Python-SDK

evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>", s3_output_path="s3://<bucket-name>/<prefix>/eval/", mlflow_resource_arn="arn:aws:sagemaker:<region>:<account-id>:mlflow-tracking-server/<tracking-server-name>", evaluate_base_model=False ) execution = evaluator.evaluate()

Visualisierung von Metriken auf Modell- und Systemebene:

Beispiel für Fehler und Genauigkeit auf Modellebene für MMLU-Benchmarking-Aufgaben
Beispiel für integrierte Metriken für die LLMAJ-Benchmarking-Aufgabe
Beispiel für Metriken auf Systemebene für die MMLU-Benchmarking-Aufgabe

TensorBoard

Reichen Sie Ihren Bewertungsauftrag mit einem AWS S3-Ausgabespeicherort ein. SageMaker lädt automatisch eine TensorBoard Datei an den Speicherort hoch.

SageMaker lädt die TensorBoard Datei am folgenden Speicherort auf AWS S3 hoch:

s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/tensorboard_results/eval/

Übergeben Sie den AWS S3-Standort wie folgt

SageMaker Studio
Übergeben Sie den Speicherort des Ausgabeartefakts (AWS S3-URI)
SageMaker Python SDK
evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>", s3_output_path="s3://<bucket-name>/<prefix>/eval/", evaluate_base_model=False ) execution = evaluator.evaluate()

Beispiel für Metriken auf Modellebene

SageMaker TensorBoard Anzeige der Ergebnisse eines Benchmarking-Jobs