View a markdown version of this page

評価メトリクスの形式 - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

評価メトリクスの形式

以下のメトリクス形式でモデルの品質を評価します。

  • モデル評価の概要

  • MLFlow

  • TensorBoard

モデル評価の概要

評価ジョブを送信するときは、 AWS S3 出力場所を指定します。SageMaker は、評価概要 .json ファイルを ロケーションに自動的にアップロードします。ベンチマーク概要の S3 パスは次のとおりです。

s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/eval_results/

AWS S3 の場所を渡す

SageMaker Studio
出力アーティファクトの場所に渡す (AWS S3 URI)
SageMaker Python SDK
evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>", s3_output_path="s3://<bucket-name>/<prefix>/eval/", evaluate_base_model=False ) execution = evaluator.evaluate()

AWS S3 の場所.jsonから として直接読み取るか、UI で自動的に視覚化します。

{ "results": { "custom|gen_qa_gen_qa|0": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 }, "all": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 } } }
SageMaker Studio で視覚化されたカスタム gen-qa ベンチマークのサンプルパフォーマンスメトリクス

MLFlow ログ記録

SageMaker MLFlow リソース ARN を指定する

SageMaker Studio は、モデルカスタマイズ機能を初めて使用する場合に、各 Studio ドメインでプロビジョニングされるデフォルトの MLFlow アプリを使用します。SageMaker Studio は、評価ジョブの送信にデフォルトの MLflow アプリに関連付けられた ARN を使用します。

評価ジョブを送信し、MLFlow リソース ARN を明示的に指定して、リアルタイム分析のためにメトリクスを関連する追跡サーバー/アプリケーションにストリーミングすることもできます。

SageMaker Python SDK

evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>", s3_output_path="s3://<bucket-name>/<prefix>/eval/", mlflow_resource_arn="arn:aws:sagemaker:<region>:<account-id>:mlflow-tracking-server/<tracking-server-name>", evaluate_base_model=False ) execution = evaluator.evaluate()

モデルレベルとシステムレベルのメトリクスの視覚化:

MMLU ベンチマークタスクのモデルレベルのエラーと精度の例
LLMAJ ベンチマークタスクの組み込みメトリクスのサンプル
MMLU ベンチマークタスクのシステムレベルのメトリクスの例

TensorBoard

AWS S3 出力場所を使用して評価ジョブを送信します。SageMaker は、TensorBoard ファイルを の場所に自動的にアップロードします。

SageMaker は TensorBoard ファイルを次の場所の AWS S3 にアップロードします。

s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/tensorboard_results/eval/

次のように AWS S3 の場所を渡します。

SageMaker Studio
出力アーティファクトの場所に渡す (AWS S3 URI)
SageMaker Python SDK
evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>", s3_output_path="s3://<bucket-name>/<prefix>/eval/", evaluate_base_model=False ) execution = evaluator.evaluate()

サンプルモデルレベルのメトリクス

ベンチマークジョブの結果を表示する SageMaker TensorBoard