View a markdown version of this page

評估指標格式 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

評估指標格式

跨這些指標格式評估模型的品質:

  • 模型評估摘要

  • MLFlow

  • TensorBoard

模型評估摘要

當您提交評估任務時,您會指定一個 AWS S3 輸出位置。SageMaker 會自動將評估摘要 .json 檔案上傳至 位置。基準摘要 S3 路徑如下:

s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/eval_results/

傳遞 AWS S3 位置

SageMaker Studio
傳入輸出成品位置 (AWS S3 URI)
SageMaker Python SDK
evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>", s3_output_path="s3://<bucket-name>/<prefix>/eval/", evaluate_base_model=False ) execution = evaluator.evaluate()

從 AWS S3 .json 位置直接讀取為 ,或在 UI 中自動視覺化:

{ "results": { "custom|gen_qa_gen_qa|0": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 }, "all": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 } } }
在 SageMaker Studio 中視覺化的自訂 gen-qa 基準效能指標範例

MLFlow 記錄

提供您的 SageMaker MLFlow 資源 ARN

SageMaker Studio 會使用在每個 Studio 網域上佈建的預設 MLFlow 應用程式。SageMaker Studio 在評估任務提交中使用與 ARN 相關聯的預設 MLflow 應用程式。

您也可以提交評估任務,並明確提供 MLFlow 資源 ARN,將指標串流到上述相關聯的追蹤伺服器/應用程式,以進行即時分析。

SageMaker Python SDK

evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>", s3_output_path="s3://<bucket-name>/<prefix>/eval/", mlflow_resource_arn="arn:aws:sagemaker:<region>:<account-id>:mlflow-tracking-server/<tracking-server-name>", evaluate_base_model=False ) execution = evaluator.evaluate()

模型層級和系統層級指標視覺化:

MMLU 基準測試任務的範例模型層級錯誤和準確性
LLMAJ 基準測試任務的內建指標範例
MMLU 基準測試任務的系統層級指標範例

TensorBoard

使用 an AWS S3 輸出位置提交評估任務。SageMaker 會自動將 TensorBoard 檔案上傳至 位置。

SageMaker 會將 TensorBoard 檔案上傳至下列位置的 AWS S3:

s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/tensorboard_results/eval/

傳遞 AWS S3 位置,如下所示

SageMaker Studio
傳入輸出成品位置 (AWS S3 URI)
SageMaker Python SDK
evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>", s3_output_path="s3://<bucket-name>/<prefix>/eval/", evaluate_base_model=False ) execution = evaluator.evaluate()

模型層級指標範例

SageMaker TensorBoard 顯示基準測試任務的結果