

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Formatos de métricas de avaliação
<a name="model-customize-evaluation-metrics-formats"></a>

Avaliando a qualidade do seu modelo nesses formatos métricos:
+ Resumo da avaliação do modelo
+ MLFlow
+ TensorBoard

## Resumo da avaliação do modelo
<a name="model-customize-evaluation-metrics-summary"></a>

Ao enviar seu trabalho de avaliação, você especifica um local de saída do AWS S3. SageMaker carrega automaticamente o arquivo.json de resumo da avaliação para o local. O caminho do resumo do benchmark para o S3 é o seguinte:

```
s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/eval_results/
```

**Passe a localização do AWS S3**

------
#### [ SageMaker Studio ]

![\[Passar para a localização do artefato de saída (URI AWS S3)\]](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/s3-output-path-submission-sagemaker-studio.png)


------
#### [ SageMaker Python SDK ]

```
evaluator = BenchMarkEvaluator(
    benchmark=Benchmark.MMLU,
    model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>",
    s3_output_path="s3://<bucket-name>/<prefix>/eval/",
    evaluate_base_model=False
)

execution = evaluator.evaluate()
```

------

Leia-o diretamente do local `.json` do AWS S3 ou visualizado automaticamente na interface do usuário:

```
{
  "results": {
    "custom|gen_qa_gen_qa|0": {
      "rouge1": 0.9152812653966208,
      "rouge1_stderr": 0.003536439199232507,
      "rouge2": 0.774569918517409,
      "rouge2_stderr": 0.006368825746765958,
      "rougeL": 0.9111255645823356,
      "rougeL_stderr": 0.003603841524881021,
      "em": 0.6562150055991042,
      "em_stderr": 0.007948251702846893,
      "qem": 0.7522396416573348,
      "qem_stderr": 0.007224355240883467,
      "f1": 0.8428757602152095,
      "f1_stderr": 0.005186300690881584,
      "f1_score_quasi": 0.9156170336744968,
      "f1_score_quasi_stderr": 0.003667700152375464,
      "bleu": 100.00000000000004,
      "bleu_stderr": 1.464411857851008
    },
    "all": {
      "rouge1": 0.9152812653966208,
      "rouge1_stderr": 0.003536439199232507,
      "rouge2": 0.774569918517409,
      "rouge2_stderr": 0.006368825746765958,
      "rougeL": 0.9111255645823356,
      "rougeL_stderr": 0.003603841524881021,
      "em": 0.6562150055991042,
      "em_stderr": 0.007948251702846893,
      "qem": 0.7522396416573348,
      "qem_stderr": 0.007224355240883467,
      "f1": 0.8428757602152095,
      "f1_stderr": 0.005186300690881584,
      "f1_score_quasi": 0.9156170336744968,
      "f1_score_quasi_stderr": 0.003667700152375464,
      "bleu": 100.00000000000004,
      "bleu_stderr": 1.464411857851008
    }
  }
}
```

![\[Exemplos de métricas de desempenho para um benchmark gen-qa personalizado visualizado no Studio SageMaker\]](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/gen-qa-metrics-visualization-sagemaker-studio.png)


## MLFlow registro
<a name="model-customize-evaluation-metrics-mlflow"></a>

**Forneça o ARN SageMaker MLFlow do seu recurso**

SageMaker O Studio usa o MLFlow aplicativo padrão que é provisionado em cada domínio do Studio quando você usa o recurso de personalização do modelo pela primeira vez. SageMaker O Studio usa o ARN associado ao MLflow aplicativo padrão no envio do trabalho de avaliação.

Você também pode enviar seu trabalho de avaliação e fornecer explicitamente um ARN de MLFlow recurso para transmitir métricas ao server/app rastreamento associado para análise em tempo real.

**SageMaker SDK para Python**

```
evaluator = BenchMarkEvaluator(
    benchmark=Benchmark.MMLU,
    model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>",
    s3_output_path="s3://<bucket-name>/<prefix>/eval/",
    mlflow_resource_arn="arn:aws:sagemaker:<region>:<account-id>:mlflow-tracking-server/<tracking-server-name>",
    evaluate_base_model=False
)

execution = evaluator.evaluate()
```

Visualização métrica no nível do modelo e no nível do sistema:

![\[Erro e precisão do nível do modelo de amostra para a tarefa de benchmarking MMLU\]](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/model-metrics-mlflow.png)


![\[Exemplo de métricas integradas para a tarefa de benchmarking do LLMAJ\]](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/llmaj-metrics-mlflow.png)


![\[Amostra de métricas em nível de sistema para a tarefa de benchmarking do MMLU\]](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/system-metrics-mlflow.png)


## TensorBoard
<a name="model-customize-evaluation-metrics-tensorboard"></a>

Envie seu trabalho de avaliação com um local de saída do AWS S3. SageMaker carrega automaticamente um TensorBoard arquivo para o local.

SageMaker carrega o TensorBoard arquivo para o AWS S3 no seguinte local:

```
s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/tensorboard_results/eval/
```

**Passe a localização AWS S3 da seguinte forma**

------
#### [ SageMaker Studio ]

![\[Passar para a localização do artefato de saída (URI AWS S3)\]](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/s3-output-path-submission-sagemaker-studio.png)


------
#### [ SageMaker Python SDK ]

```
evaluator = BenchMarkEvaluator(
    benchmark=Benchmark.MMLU,
    model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>",
    s3_output_path="s3://<bucket-name>/<prefix>/eval/",
    evaluate_base_model=False
)

execution = evaluator.evaluate()
```

------

**Amostra de métricas em nível de modelo**

![\[SageMaker TensorBoard exibindo resultados de um trabalho de benchmarking\]](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/metrics-in-tensorboard.png)
