

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# 評価メトリクスの形式
<a name="model-customize-evaluation-metrics-formats"></a>

以下のメトリクス形式でモデルの品質を評価します。
+ モデル評価の概要
+ MLFlow
+ TensorBoard

## モデル評価の概要
<a name="model-customize-evaluation-metrics-summary"></a>

評価ジョブを送信するときは、 AWS S3 出力場所を指定します。SageMaker は、評価概要 .json ファイルを ロケーションに自動的にアップロードします。ベンチマーク概要の S3 パスは次のとおりです。

```
s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/eval_results/
```

** AWS S3 の場所を渡す**

------
#### [ SageMaker Studio ]

![\[出力アーティファクトの場所に渡す (AWS S3 URI)\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/images/s3-output-path-submission-sagemaker-studio.png)


------
#### [ SageMaker Python SDK ]

```
evaluator = BenchMarkEvaluator(
    benchmark=Benchmark.MMLU,
    model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>",
    s3_output_path="s3://<bucket-name>/<prefix>/eval/",
    evaluate_base_model=False
)

execution = evaluator.evaluate()
```

------

 AWS S3 の場所`.json`から として直接読み取るか、UI で自動的に視覚化します。

```
{
  "results": {
    "custom|gen_qa_gen_qa|0": {
      "rouge1": 0.9152812653966208,
      "rouge1_stderr": 0.003536439199232507,
      "rouge2": 0.774569918517409,
      "rouge2_stderr": 0.006368825746765958,
      "rougeL": 0.9111255645823356,
      "rougeL_stderr": 0.003603841524881021,
      "em": 0.6562150055991042,
      "em_stderr": 0.007948251702846893,
      "qem": 0.7522396416573348,
      "qem_stderr": 0.007224355240883467,
      "f1": 0.8428757602152095,
      "f1_stderr": 0.005186300690881584,
      "f1_score_quasi": 0.9156170336744968,
      "f1_score_quasi_stderr": 0.003667700152375464,
      "bleu": 100.00000000000004,
      "bleu_stderr": 1.464411857851008
    },
    "all": {
      "rouge1": 0.9152812653966208,
      "rouge1_stderr": 0.003536439199232507,
      "rouge2": 0.774569918517409,
      "rouge2_stderr": 0.006368825746765958,
      "rougeL": 0.9111255645823356,
      "rougeL_stderr": 0.003603841524881021,
      "em": 0.6562150055991042,
      "em_stderr": 0.007948251702846893,
      "qem": 0.7522396416573348,
      "qem_stderr": 0.007224355240883467,
      "f1": 0.8428757602152095,
      "f1_stderr": 0.005186300690881584,
      "f1_score_quasi": 0.9156170336744968,
      "f1_score_quasi_stderr": 0.003667700152375464,
      "bleu": 100.00000000000004,
      "bleu_stderr": 1.464411857851008
    }
  }
}
```

![\[SageMaker Studio で視覚化されたカスタム gen-qa ベンチマークのサンプルパフォーマンスメトリクス\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/images/gen-qa-metrics-visualization-sagemaker-studio.png)


## MLFlow ログ記録
<a name="model-customize-evaluation-metrics-mlflow"></a>

**SageMaker MLFlow リソース ARN を指定する**

SageMaker Studio は、モデルカスタマイズ機能を初めて使用する場合に、各 Studio ドメインでプロビジョニングされるデフォルトの MLFlow アプリを使用します。SageMaker Studio は、評価ジョブの送信にデフォルトの MLflow アプリに関連付けられた ARN を使用します。

評価ジョブを送信し、MLFlow リソース ARN を明示的に指定して、リアルタイム分析のためにメトリクスを関連する追跡サーバー/アプリケーションにストリーミングすることもできます。

**SageMaker Python SDK**

```
evaluator = BenchMarkEvaluator(
    benchmark=Benchmark.MMLU,
    model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>",
    s3_output_path="s3://<bucket-name>/<prefix>/eval/",
    mlflow_resource_arn="arn:aws:sagemaker:<region>:<account-id>:mlflow-tracking-server/<tracking-server-name>",
    evaluate_base_model=False
)

execution = evaluator.evaluate()
```

モデルレベルとシステムレベルのメトリクスの視覚化:

![\[MMLU ベンチマークタスクのモデルレベルのエラーと精度の例\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/images/model-metrics-mlflow.png)


![\[LLMAJ ベンチマークタスクの組み込みメトリクスのサンプル\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/images/llmaj-metrics-mlflow.png)


![\[MMLU ベンチマークタスクのシステムレベルのメトリクスの例\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/images/system-metrics-mlflow.png)


## TensorBoard
<a name="model-customize-evaluation-metrics-tensorboard"></a>

 AWS S3 出力場所を使用して評価ジョブを送信します。SageMaker は、TensorBoard ファイルを の場所に自動的にアップロードします。

SageMaker は TensorBoard ファイルを次の場所の AWS S3 にアップロードします。

```
s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/tensorboard_results/eval/
```

**次のように AWS S3 の場所を渡します。**

------
#### [ SageMaker Studio ]

![\[出力アーティファクトの場所に渡す (AWS S3 URI)\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/images/s3-output-path-submission-sagemaker-studio.png)


------
#### [ SageMaker Python SDK ]

```
evaluator = BenchMarkEvaluator(
    benchmark=Benchmark.MMLU,
    model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>",
    s3_output_path="s3://<bucket-name>/<prefix>/eval/",
    evaluate_base_model=False
)

execution = evaluator.evaluate()
```

------

**サンプルモデルレベルのメトリクス**

![\[ベンチマークジョブの結果を表示する SageMaker TensorBoard\]](http://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/images/metrics-in-tensorboard.png)
