

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Formats de métriques d'évaluation
<a name="model-customize-evaluation-metrics-formats"></a>

Évaluation de la qualité de votre modèle dans les formats de mesure suivants :
+ Résumé de l'évaluation du modèle
+ MLFlow
+ TensorBoard

## Résumé de l'évaluation du modèle
<a name="model-customize-evaluation-metrics-summary"></a>

Lorsque vous soumettez votre travail d'évaluation, vous spécifiez un emplacement de sortie AWS S3. SageMaker télécharge automatiquement le fichier .json du résumé de l'évaluation à l'emplacement. Le chemin S3 du résumé du benchmark est le suivant :

```
s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/eval_results/
```

**Passez la position AWS S3**

------
#### [ SageMaker Studio ]

![Passer à l'emplacement de l'artefact de sortie (URI AWS S3)](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/s3-output-path-submission-sagemaker-studio.png)


------
#### [ SageMaker Python SDK ]

```
evaluator = BenchMarkEvaluator(
    benchmark=Benchmark.MMLU,
    model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>",
    s3_output_path="s3://<bucket-name>/<prefix>/eval/",
    evaluate_base_model=False
)

execution = evaluator.evaluate()
```

------

Lisez-le directement `.json` depuis l'emplacement AWS S3 ou visualisez-le automatiquement dans l'interface utilisateur :

```
{
  "results": {
    "custom|gen_qa_gen_qa|0": {
      "rouge1": 0.9152812653966208,
      "rouge1_stderr": 0.003536439199232507,
      "rouge2": 0.774569918517409,
      "rouge2_stderr": 0.006368825746765958,
      "rougeL": 0.9111255645823356,
      "rougeL_stderr": 0.003603841524881021,
      "em": 0.6562150055991042,
      "em_stderr": 0.007948251702846893,
      "qem": 0.7522396416573348,
      "qem_stderr": 0.007224355240883467,
      "f1": 0.8428757602152095,
      "f1_stderr": 0.005186300690881584,
      "f1_score_quasi": 0.9156170336744968,
      "f1_score_quasi_stderr": 0.003667700152375464,
      "bleu": 100.00000000000004,
      "bleu_stderr": 1.464411857851008
    },
    "all": {
      "rouge1": 0.9152812653966208,
      "rouge1_stderr": 0.003536439199232507,
      "rouge2": 0.774569918517409,
      "rouge2_stderr": 0.006368825746765958,
      "rougeL": 0.9111255645823356,
      "rougeL_stderr": 0.003603841524881021,
      "em": 0.6562150055991042,
      "em_stderr": 0.007948251702846893,
      "qem": 0.7522396416573348,
      "qem_stderr": 0.007224355240883467,
      "f1": 0.8428757602152095,
      "f1_stderr": 0.005186300690881584,
      "f1_score_quasi": 0.9156170336744968,
      "f1_score_quasi_stderr": 0.003667700152375464,
      "bleu": 100.00000000000004,
      "bleu_stderr": 1.464411857851008
    }
  }
}
```

![Exemples de mesures de performance pour le benchmark gen-qa personnalisé visualisé dans Studio SageMaker](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/gen-qa-metrics-visualization-sagemaker-studio.png)


## MLFlow journalisation
<a name="model-customize-evaluation-metrics-mlflow"></a>

**Fournissez l'ARN SageMaker MLFlow de votre ressource**

SageMaker Studio utilise l' MLFlow application par défaut qui est mise en service sur chaque domaine Studio lorsque vous utilisez la fonctionnalité de personnalisation du modèle pour la première fois. SageMaker Studio utilise l'ARN associé par défaut à MLflow l'application lors de la soumission des tâches d'évaluation.

Vous pouvez également soumettre votre travail d'évaluation et fournir explicitement un ARN de MLFlow ressource pour transmettre les métriques au suivi associé à des server/app fins d'analyse en temps réel.

**SageMaker SDK Python**

```
evaluator = BenchMarkEvaluator(
    benchmark=Benchmark.MMLU,
    model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>",
    s3_output_path="s3://<bucket-name>/<prefix>/eval/",
    mlflow_resource_arn="arn:aws:sagemaker:<region>:<account-id>:mlflow-tracking-server/<tracking-server-name>",
    evaluate_base_model=False
)

execution = evaluator.evaluate()
```

Visualisation des métriques au niveau du modèle et au niveau du système :

![Exemple d'erreur et de précision au niveau du modèle pour la tâche d'analyse comparative MMLU](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/model-metrics-mlflow.png)


![Exemples de métriques intégrées pour la tâche d'analyse comparative LLMAJ](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/llmaj-metrics-mlflow.png)


![Exemples de mesures au niveau du système pour la tâche d'analyse comparative de la MMLU](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/system-metrics-mlflow.png)


## TensorBoard
<a name="model-customize-evaluation-metrics-tensorboard"></a>

Soumettez votre travail d'évaluation avec un emplacement de sortie AWS S3. SageMaker télécharge automatiquement un TensorBoard fichier à l'emplacement.

SageMaker télécharge le TensorBoard fichier sur AWS S3 à l'emplacement suivant :

```
s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/tensorboard_results/eval/
```

**Transmettez l'emplacement AWS S3 comme suit**

------
#### [ SageMaker Studio ]

![Passer à l'emplacement de l'artefact de sortie (URI AWS S3)](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/s3-output-path-submission-sagemaker-studio.png)


------
#### [ SageMaker Python SDK ]

```
evaluator = BenchMarkEvaluator(
    benchmark=Benchmark.MMLU,
    model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>",
    s3_output_path="s3://<bucket-name>/<prefix>/eval/",
    evaluate_base_model=False
)

execution = evaluator.evaluate()
```

------

**Exemples de mesures au niveau du modèle**

![SageMaker TensorBoard affichage des résultats d'une tâche d'analyse comparative](http://docs.aws.amazon.com/fr_fr/sagemaker/latest/dg/images/metrics-in-tensorboard.png)
