評估指標格式

跨這些指標格式評估模型的品質：

模型評估摘要
MLFlow
TensorBoard

模型評估摘要

當您提交評估任務時，您會指定一個 AWS S3 輸出位置。SageMaker 會自動將評估摘要 .json 檔案上傳至位置。基準摘要 S3 路徑如下：


s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/eval_results/

傳遞 AWS S3 位置

從 AWS S3 .json 位置直接讀取為，或在 UI 中自動視覺化：


{
  "results": {
    "custom|gen_qa_gen_qa|0": {
      "rouge1": 0.9152812653966208,
      "rouge1_stderr": 0.003536439199232507,
      "rouge2": 0.774569918517409,
      "rouge2_stderr": 0.006368825746765958,
      "rougeL": 0.9111255645823356,
      "rougeL_stderr": 0.003603841524881021,
      "em": 0.6562150055991042,
      "em_stderr": 0.007948251702846893,
      "qem": 0.7522396416573348,
      "qem_stderr": 0.007224355240883467,
      "f1": 0.8428757602152095,
      "f1_stderr": 0.005186300690881584,
      "f1_score_quasi": 0.9156170336744968,
      "f1_score_quasi_stderr": 0.003667700152375464,
      "bleu": 100.00000000000004,
      "bleu_stderr": 1.464411857851008
    },
    "all": {
      "rouge1": 0.9152812653966208,
      "rouge1_stderr": 0.003536439199232507,
      "rouge2": 0.774569918517409,
      "rouge2_stderr": 0.006368825746765958,
      "rougeL": 0.9111255645823356,
      "rougeL_stderr": 0.003603841524881021,
      "em": 0.6562150055991042,
      "em_stderr": 0.007948251702846893,
      "qem": 0.7522396416573348,
      "qem_stderr": 0.007224355240883467,
      "f1": 0.8428757602152095,
      "f1_stderr": 0.005186300690881584,
      "f1_score_quasi": 0.9156170336744968,
      "f1_score_quasi_stderr": 0.003667700152375464,
      "bleu": 100.00000000000004,
      "bleu_stderr": 1.464411857851008
    }
  }
}

在 SageMaker Studio 中視覺化的自訂 gen-qa 基準效能指標範例

MLFlow 記錄

提供您的 SageMaker MLFlow 資源 ARN

SageMaker Studio 會使用在每個 Studio 網域上佈建的預設 MLFlow 應用程式。SageMaker Studio 在評估任務提交中使用與 ARN 相關聯的預設 MLflow 應用程式。

您也可以提交評估任務，並明確提供 MLFlow 資源 ARN，將指標串流到上述相關聯的追蹤伺服器/應用程式，以進行即時分析。

SageMaker Python SDK


evaluator = BenchMarkEvaluator(
    benchmark=Benchmark.MMLU,
    model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>",
    s3_output_path="s3://<bucket-name>/<prefix>/eval/",
    mlflow_resource_arn="arn:aws:sagemaker:<region>:<account-id>:mlflow-tracking-server/<tracking-server-name>",
    evaluate_base_model=False
)

execution = evaluator.evaluate()

模型層級和系統層級指標視覺化：

TensorBoard

使用 an AWS S3 輸出位置提交評估任務。SageMaker 會自動將 TensorBoard 檔案上傳至位置。

SageMaker 會將 TensorBoard 檔案上傳至下列位置的 AWS S3：


s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/tensorboard_results/eval/

傳遞 AWS S3 位置，如下所示

模型層級指標範例

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

評估類型和任務提交

Bring-Your-Own-Dataset (BYOD) 任務支援的資料集格式