Zusammenfassung der Modellevaluierung MLFlow Protokollierung TensorBoard

Formate für Bewertungsmetriken

Bewertung der Qualität Ihres Modells anhand dieser metrischen Formate:

Zusammenfassung der Modellbewertung
MLFlow
TensorBoard

Zusammenfassung der Modellevaluierung

Wenn Sie Ihren Bewertungsauftrag einreichen, geben Sie einen AWS S3-Ausgabeort an. SageMaker lädt die JSON-Datei mit der Bewertungszusammenfassung automatisch an den Speicherort hoch. Der S3-Pfad für die Benchmark-Zusammenfassung lautet wie folgt:


s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/eval_results/

Übergeben Sie den AWS S3-Standort

Lesen Sie es direkt als .json vom AWS S3-Standort aus oder visualisieren Sie es automatisch in der Benutzeroberfläche:


{
  "results": {
    "custom|gen_qa_gen_qa|0": {
      "rouge1": 0.9152812653966208,
      "rouge1_stderr": 0.003536439199232507,
      "rouge2": 0.774569918517409,
      "rouge2_stderr": 0.006368825746765958,
      "rougeL": 0.9111255645823356,
      "rougeL_stderr": 0.003603841524881021,
      "em": 0.6562150055991042,
      "em_stderr": 0.007948251702846893,
      "qem": 0.7522396416573348,
      "qem_stderr": 0.007224355240883467,
      "f1": 0.8428757602152095,
      "f1_stderr": 0.005186300690881584,
      "f1_score_quasi": 0.9156170336744968,
      "f1_score_quasi_stderr": 0.003667700152375464,
      "bleu": 100.00000000000004,
      "bleu_stderr": 1.464411857851008
    },
    "all": {
      "rouge1": 0.9152812653966208,
      "rouge1_stderr": 0.003536439199232507,
      "rouge2": 0.774569918517409,
      "rouge2_stderr": 0.006368825746765958,
      "rougeL": 0.9111255645823356,
      "rougeL_stderr": 0.003603841524881021,
      "em": 0.6562150055991042,
      "em_stderr": 0.007948251702846893,
      "qem": 0.7522396416573348,
      "qem_stderr": 0.007224355240883467,
      "f1": 0.8428757602152095,
      "f1_stderr": 0.005186300690881584,
      "f1_score_quasi": 0.9156170336744968,
      "f1_score_quasi_stderr": 0.003667700152375464,
      "bleu": 100.00000000000004,
      "bleu_stderr": 1.464411857851008
    }
  }
}

Beispiele für Leistungskennzahlen für einen benutzerdefinierten Gen-QA-Benchmark, visualisiert in Studio SageMaker

MLFlow Protokollierung

Geben Sie Ihren SageMaker MLFlow Ressourcen-ARN ARN

SageMaker Studio verwendet die MLFlow Standard-App, die auf jeder Studio-Domäne bereitgestellt wird, wenn Sie die Funktion zur Modellanpassung zum ersten Mal verwenden. SageMaker Studio verwendet bei der Einreichung von Bewertungsaufträgen den mit der MLflow App verknüpften ARN.

Sie können Ihren Bewertungsauftrag auch einreichen und explizit einen MLFlow Ressourcen-ARN angeben, um Metriken server/app zur Echtzeitanalyse an das zugehörige Tracking zu streamen.

SageMaker Python-SDK


evaluator = BenchMarkEvaluator(
    benchmark=Benchmark.MMLU,
    model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>",
    s3_output_path="s3://<bucket-name>/<prefix>/eval/",
    mlflow_resource_arn="arn:aws:sagemaker:<region>:<account-id>:mlflow-tracking-server/<tracking-server-name>",
    evaluate_base_model=False
)

execution = evaluator.evaluate()

Visualisierung von Metriken auf Modell- und Systemebene:

Beispiel für Fehler und Genauigkeit auf Modellebene für MMLU-Benchmarking-Aufgaben

Beispiel für integrierte Metriken für die LLMAJ-Benchmarking-Aufgabe

Beispiel für Metriken auf Systemebene für die MMLU-Benchmarking-Aufgabe

TensorBoard

Reichen Sie Ihren Bewertungsauftrag mit einem AWS S3-Ausgabespeicherort ein. SageMaker lädt automatisch eine TensorBoard Datei an den Speicherort hoch.

SageMaker lädt die TensorBoard Datei am folgenden Speicherort auf AWS S3 hoch:


s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/tensorboard_results/eval/

Übergeben Sie den AWS S3-Standort wie folgt

Beispiel für Metriken auf Modellebene

SageMaker TensorBoard Anzeige der Ergebnisse eines Benchmarking-Jobs

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Bewertungsarten und Einreichung von Job

Unterstützte Datensatzformate für Bring-Your-Own-Dataset (BYOD-) Aufgaben