View a markdown version of this page

Formats de métriques d'évaluation - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Formats de métriques d'évaluation

Évaluation de la qualité de votre modèle dans les formats de mesure suivants :

  • Résumé de l'évaluation du modèle

  • MLFlow

  • TensorBoard

Résumé de l'évaluation du modèle

Lorsque vous soumettez votre travail d'évaluation, vous spécifiez un emplacement de sortie AWS S3. SageMaker télécharge automatiquement le fichier .json du résumé de l'évaluation à l'emplacement. Le chemin S3 du résumé du benchmark est le suivant :

s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/eval_results/

Passez la position AWS S3

SageMaker Studio
Passer à l'emplacement de l'artefact de sortie (URI AWS S3)
SageMaker Python SDK
evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>", s3_output_path="s3://<bucket-name>/<prefix>/eval/", evaluate_base_model=False ) execution = evaluator.evaluate()

Lisez-le directement .json depuis l'emplacement AWS S3 ou visualisez-le automatiquement dans l'interface utilisateur :

{ "results": { "custom|gen_qa_gen_qa|0": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 }, "all": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 } } }
Exemples de mesures de performance pour le benchmark gen-qa personnalisé visualisé dans Studio SageMaker

MLFlow journalisation

Fournissez l'ARN SageMaker MLFlow de votre ressource

SageMaker Studio utilise l' MLFlow application par défaut qui est mise en service sur chaque domaine Studio lorsque vous utilisez la fonctionnalité de personnalisation du modèle pour la première fois. SageMaker Studio utilise l'ARN associé par défaut à MLflow l'application lors de la soumission des tâches d'évaluation.

Vous pouvez également soumettre votre travail d'évaluation et fournir explicitement un ARN de MLFlow ressource pour transmettre les métriques au suivi associé à des server/app fins d'analyse en temps réel.

SageMaker SDK Python

evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>", s3_output_path="s3://<bucket-name>/<prefix>/eval/", mlflow_resource_arn="arn:aws:sagemaker:<region>:<account-id>:mlflow-tracking-server/<tracking-server-name>", evaluate_base_model=False ) execution = evaluator.evaluate()

Visualisation des métriques au niveau du modèle et au niveau du système :

Exemple d'erreur et de précision au niveau du modèle pour la tâche d'analyse comparative MMLU
Exemples de métriques intégrées pour la tâche d'analyse comparative LLMAJ
Exemples de mesures au niveau du système pour la tâche d'analyse comparative de la MMLU

TensorBoard

Soumettez votre travail d'évaluation avec un emplacement de sortie AWS S3. SageMaker télécharge automatiquement un TensorBoard fichier à l'emplacement.

SageMaker télécharge le TensorBoard fichier sur AWS S3 à l'emplacement suivant :

s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/tensorboard_results/eval/

Transmettez l'emplacement AWS S3 comme suit

SageMaker Studio
Passer à l'emplacement de l'artefact de sortie (URI AWS S3)
SageMaker Python SDK
evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>", s3_output_path="s3://<bucket-name>/<prefix>/eval/", evaluate_base_model=False ) execution = evaluator.evaluate()

Exemples de mesures au niveau du modèle

SageMaker TensorBoard affichage des résultats d'une tâche d'analyse comparative