評価メトリクスの形式

以下のメトリクス形式でモデルの品質を評価します。

モデル評価の概要
MLFlow
TensorBoard

モデル評価の概要

評価ジョブを送信するときは、 AWS S3 出力場所を指定します。SageMaker は、評価概要 .json ファイルをロケーションに自動的にアップロードします。ベンチマーク概要の S3 パスは次のとおりです。


s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/eval_results/

AWS S3 の場所を渡す

AWS S3 の場所.jsonからとして直接読み取るか、UI で自動的に視覚化します。


{
  "results": {
    "custom|gen_qa_gen_qa|0": {
      "rouge1": 0.9152812653966208,
      "rouge1_stderr": 0.003536439199232507,
      "rouge2": 0.774569918517409,
      "rouge2_stderr": 0.006368825746765958,
      "rougeL": 0.9111255645823356,
      "rougeL_stderr": 0.003603841524881021,
      "em": 0.6562150055991042,
      "em_stderr": 0.007948251702846893,
      "qem": 0.7522396416573348,
      "qem_stderr": 0.007224355240883467,
      "f1": 0.8428757602152095,
      "f1_stderr": 0.005186300690881584,
      "f1_score_quasi": 0.9156170336744968,
      "f1_score_quasi_stderr": 0.003667700152375464,
      "bleu": 100.00000000000004,
      "bleu_stderr": 1.464411857851008
    },
    "all": {
      "rouge1": 0.9152812653966208,
      "rouge1_stderr": 0.003536439199232507,
      "rouge2": 0.774569918517409,
      "rouge2_stderr": 0.006368825746765958,
      "rougeL": 0.9111255645823356,
      "rougeL_stderr": 0.003603841524881021,
      "em": 0.6562150055991042,
      "em_stderr": 0.007948251702846893,
      "qem": 0.7522396416573348,
      "qem_stderr": 0.007224355240883467,
      "f1": 0.8428757602152095,
      "f1_stderr": 0.005186300690881584,
      "f1_score_quasi": 0.9156170336744968,
      "f1_score_quasi_stderr": 0.003667700152375464,
      "bleu": 100.00000000000004,
      "bleu_stderr": 1.464411857851008
    }
  }
}

SageMaker Studio で視覚化されたカスタム gen-qa ベンチマークのサンプルパフォーマンスメトリクス

MLFlow ログ記録

SageMaker MLFlow リソース ARN を指定する

SageMaker Studio は、モデルカスタマイズ機能を初めて使用する場合に、各 Studio ドメインでプロビジョニングされるデフォルトの MLFlow アプリを使用します。SageMaker Studio は、評価ジョブの送信にデフォルトの MLflow アプリに関連付けられた ARN を使用します。

評価ジョブを送信し、MLFlow リソース ARN を明示的に指定して、リアルタイム分析のためにメトリクスを関連する追跡サーバー/アプリケーションにストリーミングすることもできます。

SageMaker Python SDK


evaluator = BenchMarkEvaluator(
    benchmark=Benchmark.MMLU,
    model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>",
    s3_output_path="s3://<bucket-name>/<prefix>/eval/",
    mlflow_resource_arn="arn:aws:sagemaker:<region>:<account-id>:mlflow-tracking-server/<tracking-server-name>",
    evaluate_base_model=False
)

execution = evaluator.evaluate()

モデルレベルとシステムレベルのメトリクスの視覚化:

TensorBoard

AWS S3 出力場所を使用して評価ジョブを送信します。SageMaker は、TensorBoard ファイルをの場所に自動的にアップロードします。

SageMaker は TensorBoard ファイルを次の場所の AWS S3 にアップロードします。


s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/tensorboard_results/eval/

次のように AWS S3 の場所を渡します。

サンプルモデルレベルのメトリクス

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

評価タイプとジョブ送信

Bring-Your-Own-Dataset (BYOD) タスクでサポートされているデータセット形式