기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다. # 평가 지표 형식 다음 지표 형식에서 모델의 품질을 평가합니다. + 모델 평가 요약 + MLFlow + TensorBoard ## 모델 평가 요약 평가 작업을 제출할 때 AWS S3 출력 위치를 지정합니다. SageMaker는 평가 요약 .json 파일을 위치에 자동으로 업로드합니다. 벤치마크 요약 S3 경로는 다음과 같습니다. ``` s3:////output/output//eval_results/ ``` ** AWS S3 위치 전달** ------ #### [ SageMaker Studio ] ![출력 아티팩트 위치로 전달(AWS S3 URI)](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/s3-output-path-submission-sagemaker-studio.png) ------ #### [ SageMaker Python SDK ] ``` evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:::model-package//", s3_output_path="s3:////eval/", evaluate_base_model=False ) execution = evaluator.evaluate() ``` ------ `.json` AWS S3 위치에서 로 직접 읽거나 UI에서 자동으로 시각화합니다. ``` { "results": { "custom|gen_qa_gen_qa|0": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 }, "all": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 } } } ``` ![SageMaker Studio에서 시각화된 사용자 지정 gen-qa 벤치마크의 샘플 성능 지표](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/gen-qa-metrics-visualization-sagemaker-studio.png) ## MLFlow 로깅 **SageMaker MLFlow 리소스 ARN 제공** SageMaker Studio는 모델 사용자 지정 기능을 처음 사용할 때 각 Studio 도메인에 프로비저닝되는 기본 MLFlow 앱을 사용합니다. SageMaker Studio는 평가 작업 제출 시 기본 MLflow 앱 관련 ARN을 사용합니다. 또한 평가 작업을 제출하고 MLFlow 리소스 ARN을 명시적으로 제공하여 실시간 분석을 위해 지표를 연결된 추적 서버/앱으로 스트리밍할 수 있습니다. **SageMaker Python SDK** ``` evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:::model-package//", s3_output_path="s3:////eval/", mlflow_resource_arn="arn:aws:sagemaker:::mlflow-tracking-server/", evaluate_base_model=False ) execution = evaluator.evaluate() ``` 모델 수준 및 시스템 수준 지표 시각화: ![MMLU 벤치마킹 작업에 대한 샘플 모델 수준 오류 및 정확도](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/model-metrics-mlflow.png) ![LLMAJ 벤치마킹 작업에 대한 기본 제공 지표 샘플](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/llmaj-metrics-mlflow.png) ![MMLU 벤치마킹 작업에 대한 샘플 시스템 수준 지표](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/system-metrics-mlflow.png) ## TensorBoard AWS S3 출력 위치를 사용하여 평가 작업을 제출합니다. SageMaker는 TensorBoard 파일을 위치에 자동으로 업로드합니다. SageMaker는 TensorBoard 파일을 다음 위치에 있는 AWS S3에 업로드합니다. ``` s3:////output/output//tensorboard_results/eval/ ``` **다음과 같이 AWS S3 위치를 전달합니다.** ------ #### [ SageMaker Studio ] ![출력 아티팩트 위치로 전달(AWS S3 URI)](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/s3-output-path-submission-sagemaker-studio.png) ------ #### [ SageMaker Python SDK ] ``` evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:::model-package//", s3_output_path="s3:////eval/", evaluate_base_model=False ) execution = evaluator.evaluate() ``` ------ **샘플 모델 수준 지표** ![벤치마킹 작업의 결과를 표시하는 SageMaker TensorBoard](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/metrics-in-tensorboard.png)