View a markdown version of this page

평가 지표 형식 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

평가 지표 형식

다음 지표 형식에서 모델의 품질을 평가합니다.

  • 모델 평가 요약

  • MLFlow

  • TensorBoard

모델 평가 요약

평가 작업을 제출할 때 AWS S3 출력 위치를 지정합니다. SageMaker는 평가 요약 .json 파일을 위치에 자동으로 업로드합니다. 벤치마크 요약 S3 경로는 다음과 같습니다.

s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/eval_results/

AWS S3 위치 전달

SageMaker Studio
출력 아티팩트 위치로 전달(AWS S3 URI)
SageMaker Python SDK
evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>", s3_output_path="s3://<bucket-name>/<prefix>/eval/", evaluate_base_model=False ) execution = evaluator.evaluate()

.json AWS S3 위치에서 로 직접 읽거나 UI에서 자동으로 시각화합니다.

{ "results": { "custom|gen_qa_gen_qa|0": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 }, "all": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 } } }
SageMaker Studio에서 시각화된 사용자 지정 gen-qa 벤치마크의 샘플 성능 지표

MLFlow 로깅

SageMaker MLFlow 리소스 ARN 제공

SageMaker Studio는 모델 사용자 지정 기능을 처음 사용할 때 각 Studio 도메인에 프로비저닝되는 기본 MLFlow 앱을 사용합니다. SageMaker Studio는 평가 작업 제출 시 기본 MLflow 앱 관련 ARN을 사용합니다.

또한 평가 작업을 제출하고 MLFlow 리소스 ARN을 명시적으로 제공하여 실시간 분석을 위해 지표를 연결된 추적 서버/앱으로 스트리밍할 수 있습니다.

SageMaker Python SDK

evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>", s3_output_path="s3://<bucket-name>/<prefix>/eval/", mlflow_resource_arn="arn:aws:sagemaker:<region>:<account-id>:mlflow-tracking-server/<tracking-server-name>", evaluate_base_model=False ) execution = evaluator.evaluate()

모델 수준 및 시스템 수준 지표 시각화:

MMLU 벤치마킹 작업에 대한 샘플 모델 수준 오류 및 정확도
LLMAJ 벤치마킹 작업에 대한 기본 제공 지표 샘플
MMLU 벤치마킹 작업에 대한 샘플 시스템 수준 지표

TensorBoard

AWS S3 출력 위치를 사용하여 평가 작업을 제출합니다. SageMaker는 TensorBoard 파일을 위치에 자동으로 업로드합니다.

SageMaker는 TensorBoard 파일을 다음 위치에 있는 AWS S3에 업로드합니다.

s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/tensorboard_results/eval/

다음과 같이 AWS S3 위치를 전달합니다.

SageMaker Studio
출력 아티팩트 위치로 전달(AWS S3 URI)
SageMaker Python SDK
evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>", s3_output_path="s3://<bucket-name>/<prefix>/eval/", evaluate_base_model=False ) execution = evaluator.evaluate()

샘플 모델 수준 지표

벤치마킹 작업의 결과를 표시하는 SageMaker TensorBoard