Résumé de l'évaluation du modèle MLFlow journalisation TensorBoard

Formats de métriques d'évaluation

Évaluation de la qualité de votre modèle dans les formats de mesure suivants :

Résumé de l'évaluation du modèle
MLFlow
TensorBoard

Résumé de l'évaluation du modèle

Lorsque vous soumettez votre travail d'évaluation, vous spécifiez un emplacement de sortie AWS S3. SageMaker télécharge automatiquement le fichier .json du résumé de l'évaluation à l'emplacement. Le chemin S3 du résumé du benchmark est le suivant :


s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/eval_results/

Passez la position AWS S3

Lisez-le directement .json depuis l'emplacement AWS S3 ou visualisez-le automatiquement dans l'interface utilisateur :


{
  "results": {
    "custom|gen_qa_gen_qa|0": {
      "rouge1": 0.9152812653966208,
      "rouge1_stderr": 0.003536439199232507,
      "rouge2": 0.774569918517409,
      "rouge2_stderr": 0.006368825746765958,
      "rougeL": 0.9111255645823356,
      "rougeL_stderr": 0.003603841524881021,
      "em": 0.6562150055991042,
      "em_stderr": 0.007948251702846893,
      "qem": 0.7522396416573348,
      "qem_stderr": 0.007224355240883467,
      "f1": 0.8428757602152095,
      "f1_stderr": 0.005186300690881584,
      "f1_score_quasi": 0.9156170336744968,
      "f1_score_quasi_stderr": 0.003667700152375464,
      "bleu": 100.00000000000004,
      "bleu_stderr": 1.464411857851008
    },
    "all": {
      "rouge1": 0.9152812653966208,
      "rouge1_stderr": 0.003536439199232507,
      "rouge2": 0.774569918517409,
      "rouge2_stderr": 0.006368825746765958,
      "rougeL": 0.9111255645823356,
      "rougeL_stderr": 0.003603841524881021,
      "em": 0.6562150055991042,
      "em_stderr": 0.007948251702846893,
      "qem": 0.7522396416573348,
      "qem_stderr": 0.007224355240883467,
      "f1": 0.8428757602152095,
      "f1_stderr": 0.005186300690881584,
      "f1_score_quasi": 0.9156170336744968,
      "f1_score_quasi_stderr": 0.003667700152375464,
      "bleu": 100.00000000000004,
      "bleu_stderr": 1.464411857851008
    }
  }
}

Exemples de mesures de performance pour le benchmark gen-qa personnalisé visualisé dans Studio SageMaker

MLFlow journalisation

Fournissez l'ARN SageMaker MLFlow de votre ressource

SageMaker Studio utilise l' MLFlow application par défaut qui est mise en service sur chaque domaine Studio lorsque vous utilisez la fonctionnalité de personnalisation du modèle pour la première fois. SageMaker Studio utilise l'ARN associé par défaut à MLflow l'application lors de la soumission des tâches d'évaluation.

Vous pouvez également soumettre votre travail d'évaluation et fournir explicitement un ARN de MLFlow ressource pour transmettre les métriques au suivi associé à des server/app fins d'analyse en temps réel.

SageMaker SDK Python


evaluator = BenchMarkEvaluator(
    benchmark=Benchmark.MMLU,
    model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>",
    s3_output_path="s3://<bucket-name>/<prefix>/eval/",
    mlflow_resource_arn="arn:aws:sagemaker:<region>:<account-id>:mlflow-tracking-server/<tracking-server-name>",
    evaluate_base_model=False
)

execution = evaluator.evaluate()

Visualisation des métriques au niveau du modèle et au niveau du système :

Exemple d'erreur et de précision au niveau du modèle pour la tâche d'analyse comparative MMLU

Exemples de métriques intégrées pour la tâche d'analyse comparative LLMAJ

Exemples de mesures au niveau du système pour la tâche d'analyse comparative de la MMLU

TensorBoard

Soumettez votre travail d'évaluation avec un emplacement de sortie AWS S3. SageMaker télécharge automatiquement un TensorBoard fichier à l'emplacement.

SageMaker télécharge le TensorBoard fichier sur AWS S3 à l'emplacement suivant :


s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/tensorboard_results/eval/

Transmettez l'emplacement AWS S3 comme suit

Exemples de mesures au niveau du modèle

SageMaker TensorBoard affichage des résultats d'une tâche d'analyse comparative

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Types d'évaluation et soumission de Job

Formats de jeu de données pris en charge pour les tâches Bring-Your-Own-Dataset (BYOD)