Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Formats de métriques d'évaluation
Évaluation de la qualité de votre modèle dans les formats de mesure suivants :
Résumé de l'évaluation du modèle
MLFlow
TensorBoard
Résumé de l'évaluation du modèle
Lorsque vous soumettez votre travail d'évaluation, vous spécifiez un emplacement de sortie AWS S3. SageMaker télécharge automatiquement le fichier .json du résumé de l'évaluation à l'emplacement. Le chemin S3 du résumé du benchmark est le suivant :
s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/eval_results/
Passez la position AWS S3
Lisez-le directement .json depuis l'emplacement AWS S3 ou visualisez-le automatiquement dans l'interface utilisateur :
{ "results": { "custom|gen_qa_gen_qa|0": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 }, "all": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 } } }
MLFlow journalisation
Fournissez l'ARN SageMaker MLFlow de votre ressource
SageMaker Studio utilise l' MLFlow application par défaut qui est mise en service sur chaque domaine Studio lorsque vous utilisez la fonctionnalité de personnalisation du modèle pour la première fois. SageMaker Studio utilise l'ARN associé par défaut à MLflow l'application lors de la soumission des tâches d'évaluation.
Vous pouvez également soumettre votre travail d'évaluation et fournir explicitement un ARN de MLFlow ressource pour transmettre les métriques au suivi associé à des server/app fins d'analyse en temps réel.
SageMaker SDK Python
evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>", s3_output_path="s3://<bucket-name>/<prefix>/eval/", mlflow_resource_arn="arn:aws:sagemaker:<region>:<account-id>:mlflow-tracking-server/<tracking-server-name>", evaluate_base_model=False ) execution = evaluator.evaluate()
Visualisation des métriques au niveau du modèle et au niveau du système :
TensorBoard
Soumettez votre travail d'évaluation avec un emplacement de sortie AWS S3. SageMaker télécharge automatiquement un TensorBoard fichier à l'emplacement.
SageMaker télécharge le TensorBoard fichier sur AWS S3 à l'emplacement suivant :
s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/tensorboard_results/eval/
Transmettez l'emplacement AWS S3 comme suit
Exemples de mesures au niveau du modèle