本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
評估指標格式
跨這些指標格式評估模型的品質:
模型評估摘要
MLFlow
TensorBoard
模型評估摘要
當您提交評估任務時,您會指定一個 AWS S3 輸出位置。SageMaker 會自動將評估摘要 .json 檔案上傳至 位置。基準摘要 S3 路徑如下:
s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/eval_results/
傳遞 AWS S3 位置
從 AWS S3 .json 位置直接讀取為 ,或在 UI 中自動視覺化:
{ "results": { "custom|gen_qa_gen_qa|0": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 }, "all": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 } } }
MLFlow 記錄
提供您的 SageMaker MLFlow 資源 ARN
SageMaker Studio 會使用在每個 Studio 網域上佈建的預設 MLFlow 應用程式。SageMaker Studio 在評估任務提交中使用與 ARN 相關聯的預設 MLflow 應用程式。
您也可以提交評估任務,並明確提供 MLFlow 資源 ARN,將指標串流到上述相關聯的追蹤伺服器/應用程式,以進行即時分析。
SageMaker Python SDK
evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>", s3_output_path="s3://<bucket-name>/<prefix>/eval/", mlflow_resource_arn="arn:aws:sagemaker:<region>:<account-id>:mlflow-tracking-server/<tracking-server-name>", evaluate_base_model=False ) execution = evaluator.evaluate()
模型層級和系統層級指標視覺化:
TensorBoard
使用 an AWS S3 輸出位置提交評估任務。SageMaker 會自動將 TensorBoard 檔案上傳至 位置。
SageMaker 會將 TensorBoard 檔案上傳至下列位置的 AWS S3:
s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/tensorboard_results/eval/
傳遞 AWS S3 位置,如下所示
模型層級指標範例