翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
評価メトリクスの形式
以下のメトリクス形式でモデルの品質を評価します。
モデル評価の概要
MLFlow
TensorBoard
モデル評価の概要
評価ジョブを送信するときは、 AWS S3 出力場所を指定します。SageMaker は、評価概要 .json ファイルを ロケーションに自動的にアップロードします。ベンチマーク概要の S3 パスは次のとおりです。
s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/eval_results/
AWS S3 の場所を渡す
AWS S3 の場所.jsonから として直接読み取るか、UI で自動的に視覚化します。
{ "results": { "custom|gen_qa_gen_qa|0": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 }, "all": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 } } }
MLFlow ログ記録
SageMaker MLFlow リソース ARN を指定する
SageMaker Studio は、モデルカスタマイズ機能を初めて使用する場合に、各 Studio ドメインでプロビジョニングされるデフォルトの MLFlow アプリを使用します。SageMaker Studio は、評価ジョブの送信にデフォルトの MLflow アプリに関連付けられた ARN を使用します。
評価ジョブを送信し、MLFlow リソース ARN を明示的に指定して、リアルタイム分析のためにメトリクスを関連する追跡サーバー/アプリケーションにストリーミングすることもできます。
SageMaker Python SDK
evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>", s3_output_path="s3://<bucket-name>/<prefix>/eval/", mlflow_resource_arn="arn:aws:sagemaker:<region>:<account-id>:mlflow-tracking-server/<tracking-server-name>", evaluate_base_model=False ) execution = evaluator.evaluate()
モデルレベルとシステムレベルのメトリクスの視覚化:
TensorBoard
AWS S3 出力場所を使用して評価ジョブを送信します。SageMaker は、TensorBoard ファイルを の場所に自動的にアップロードします。
SageMaker は TensorBoard ファイルを次の場所の AWS S3 にアップロードします。
s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/tensorboard_results/eval/
次のように AWS S3 の場所を渡します。
サンプルモデルレベルのメトリクス