

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 평가 지표 형식
<a name="model-customize-evaluation-metrics-formats"></a>

다음 지표 형식에서 모델의 품질을 평가합니다.
+ 모델 평가 요약
+ MLFlow
+ TensorBoard

## 모델 평가 요약
<a name="model-customize-evaluation-metrics-summary"></a>

평가 작업을 제출할 때 AWS S3 출력 위치를 지정합니다. SageMaker는 평가 요약 .json 파일을 위치에 자동으로 업로드합니다. 벤치마크 요약 S3 경로는 다음과 같습니다.

```
s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/eval_results/
```

** AWS S3 위치 전달**

------
#### [ SageMaker Studio ]

![출력 아티팩트 위치로 전달(AWS S3 URI)](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/s3-output-path-submission-sagemaker-studio.png)


------
#### [ SageMaker Python SDK ]

```
evaluator = BenchMarkEvaluator(
    benchmark=Benchmark.MMLU,
    model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>",
    s3_output_path="s3://<bucket-name>/<prefix>/eval/",
    evaluate_base_model=False
)

execution = evaluator.evaluate()
```

------

`.json` AWS S3 위치에서 로 직접 읽거나 UI에서 자동으로 시각화합니다.

```
{
  "results": {
    "custom|gen_qa_gen_qa|0": {
      "rouge1": 0.9152812653966208,
      "rouge1_stderr": 0.003536439199232507,
      "rouge2": 0.774569918517409,
      "rouge2_stderr": 0.006368825746765958,
      "rougeL": 0.9111255645823356,
      "rougeL_stderr": 0.003603841524881021,
      "em": 0.6562150055991042,
      "em_stderr": 0.007948251702846893,
      "qem": 0.7522396416573348,
      "qem_stderr": 0.007224355240883467,
      "f1": 0.8428757602152095,
      "f1_stderr": 0.005186300690881584,
      "f1_score_quasi": 0.9156170336744968,
      "f1_score_quasi_stderr": 0.003667700152375464,
      "bleu": 100.00000000000004,
      "bleu_stderr": 1.464411857851008
    },
    "all": {
      "rouge1": 0.9152812653966208,
      "rouge1_stderr": 0.003536439199232507,
      "rouge2": 0.774569918517409,
      "rouge2_stderr": 0.006368825746765958,
      "rougeL": 0.9111255645823356,
      "rougeL_stderr": 0.003603841524881021,
      "em": 0.6562150055991042,
      "em_stderr": 0.007948251702846893,
      "qem": 0.7522396416573348,
      "qem_stderr": 0.007224355240883467,
      "f1": 0.8428757602152095,
      "f1_stderr": 0.005186300690881584,
      "f1_score_quasi": 0.9156170336744968,
      "f1_score_quasi_stderr": 0.003667700152375464,
      "bleu": 100.00000000000004,
      "bleu_stderr": 1.464411857851008
    }
  }
}
```

![SageMaker Studio에서 시각화된 사용자 지정 gen-qa 벤치마크의 샘플 성능 지표](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/gen-qa-metrics-visualization-sagemaker-studio.png)


## MLFlow 로깅
<a name="model-customize-evaluation-metrics-mlflow"></a>

**SageMaker MLFlow 리소스 ARN 제공**

SageMaker Studio는 모델 사용자 지정 기능을 처음 사용할 때 각 Studio 도메인에 프로비저닝되는 기본 MLFlow 앱을 사용합니다. SageMaker Studio는 평가 작업 제출 시 기본 MLflow 앱 관련 ARN을 사용합니다.

또한 평가 작업을 제출하고 MLFlow 리소스 ARN을 명시적으로 제공하여 실시간 분석을 위해 지표를 연결된 추적 서버/앱으로 스트리밍할 수 있습니다.

**SageMaker Python SDK**

```
evaluator = BenchMarkEvaluator(
    benchmark=Benchmark.MMLU,
    model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>",
    s3_output_path="s3://<bucket-name>/<prefix>/eval/",
    mlflow_resource_arn="arn:aws:sagemaker:<region>:<account-id>:mlflow-tracking-server/<tracking-server-name>",
    evaluate_base_model=False
)

execution = evaluator.evaluate()
```

모델 수준 및 시스템 수준 지표 시각화:

![MMLU 벤치마킹 작업에 대한 샘플 모델 수준 오류 및 정확도](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/model-metrics-mlflow.png)


![LLMAJ 벤치마킹 작업에 대한 기본 제공 지표 샘플](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/llmaj-metrics-mlflow.png)


![MMLU 벤치마킹 작업에 대한 샘플 시스템 수준 지표](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/system-metrics-mlflow.png)


## TensorBoard
<a name="model-customize-evaluation-metrics-tensorboard"></a>

 AWS S3 출력 위치를 사용하여 평가 작업을 제출합니다. SageMaker는 TensorBoard 파일을 위치에 자동으로 업로드합니다.

SageMaker는 TensorBoard 파일을 다음 위치에 있는 AWS S3에 업로드합니다.

```
s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/tensorboard_results/eval/
```

**다음과 같이 AWS S3 위치를 전달합니다.**

------
#### [ SageMaker Studio ]

![출력 아티팩트 위치로 전달(AWS S3 URI)](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/s3-output-path-submission-sagemaker-studio.png)


------
#### [ SageMaker Python SDK ]

```
evaluator = BenchMarkEvaluator(
    benchmark=Benchmark.MMLU,
    model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>",
    s3_output_path="s3://<bucket-name>/<prefix>/eval/",
    evaluate_base_model=False
)

execution = evaluator.evaluate()
```

------

**샘플 모델 수준 지표**

![벤치마킹 작업의 결과를 표시하는 SageMaker TensorBoard](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/metrics-in-tensorboard.png)
