Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Formate für Bewertungsmetriken
Bewertung der Qualität Ihres Modells anhand dieser metrischen Formate:
Zusammenfassung der Modellbewertung
MLFlow
TensorBoard
Zusammenfassung der Modellevaluierung
Wenn Sie Ihren Bewertungsauftrag einreichen, geben Sie einen AWS S3-Ausgabeort an. SageMaker lädt die JSON-Datei mit der Bewertungszusammenfassung automatisch an den Speicherort hoch. Der S3-Pfad für die Benchmark-Zusammenfassung lautet wie folgt:
s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/eval_results/
Übergeben Sie den AWS S3-Standort
Lesen Sie es direkt als .json vom AWS S3-Standort aus oder visualisieren Sie es automatisch in der Benutzeroberfläche:
{ "results": { "custom|gen_qa_gen_qa|0": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 }, "all": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 } } }
MLFlow Protokollierung
Geben Sie Ihren SageMaker MLFlow Ressourcen-ARN ARN
SageMaker Studio verwendet die MLFlow Standard-App, die auf jeder Studio-Domäne bereitgestellt wird, wenn Sie die Funktion zur Modellanpassung zum ersten Mal verwenden. SageMaker Studio verwendet bei der Einreichung von Bewertungsaufträgen den mit der MLflow App verknüpften ARN.
Sie können Ihren Bewertungsauftrag auch einreichen und explizit einen MLFlow Ressourcen-ARN angeben, um Metriken server/app zur Echtzeitanalyse an das zugehörige Tracking zu streamen.
SageMaker Python-SDK
evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>", s3_output_path="s3://<bucket-name>/<prefix>/eval/", mlflow_resource_arn="arn:aws:sagemaker:<region>:<account-id>:mlflow-tracking-server/<tracking-server-name>", evaluate_base_model=False ) execution = evaluator.evaluate()
Visualisierung von Metriken auf Modell- und Systemebene:
TensorBoard
Reichen Sie Ihren Bewertungsauftrag mit einem AWS S3-Ausgabespeicherort ein. SageMaker lädt automatisch eine TensorBoard Datei an den Speicherort hoch.
SageMaker lädt die TensorBoard Datei am folgenden Speicherort auf AWS S3 hoch:
s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/tensorboard_results/eval/
Übergeben Sie den AWS S3-Standort wie folgt
Beispiel für Metriken auf Modellebene