Ringkasan Evaluasi Model MLFlow penebangan TensorBoard

Format Metrik Evaluasi

Mengevaluasi kualitas model Anda di seluruh format metrik ini:

Ringkasan Evaluasi Model
MLFlow
TensorBoard

Ringkasan Evaluasi Model

Saat Anda mengirimkan pekerjaan evaluasi Anda, Anda menentukan lokasi keluaran AWS S3. SageMaker secara otomatis mengunggah ringkasan evaluasi file.json ke lokasi. Jalur S3 ringkasan benchmark adalah sebagai berikut:


s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/eval_results/

Lewati lokasi AWS S3

Baca langsung sebagai .json dari lokasi AWS S3 atau divisualisasikan secara otomatis di UI:


{
  "results": {
    "custom|gen_qa_gen_qa|0": {
      "rouge1": 0.9152812653966208,
      "rouge1_stderr": 0.003536439199232507,
      "rouge2": 0.774569918517409,
      "rouge2_stderr": 0.006368825746765958,
      "rougeL": 0.9111255645823356,
      "rougeL_stderr": 0.003603841524881021,
      "em": 0.6562150055991042,
      "em_stderr": 0.007948251702846893,
      "qem": 0.7522396416573348,
      "qem_stderr": 0.007224355240883467,
      "f1": 0.8428757602152095,
      "f1_stderr": 0.005186300690881584,
      "f1_score_quasi": 0.9156170336744968,
      "f1_score_quasi_stderr": 0.003667700152375464,
      "bleu": 100.00000000000004,
      "bleu_stderr": 1.464411857851008
    },
    "all": {
      "rouge1": 0.9152812653966208,
      "rouge1_stderr": 0.003536439199232507,
      "rouge2": 0.774569918517409,
      "rouge2_stderr": 0.006368825746765958,
      "rougeL": 0.9111255645823356,
      "rougeL_stderr": 0.003603841524881021,
      "em": 0.6562150055991042,
      "em_stderr": 0.007948251702846893,
      "qem": 0.7522396416573348,
      "qem_stderr": 0.007224355240883467,
      "f1": 0.8428757602152095,
      "f1_stderr": 0.005186300690881584,
      "f1_score_quasi": 0.9156170336744968,
      "f1_score_quasi_stderr": 0.003667700152375464,
      "bleu": 100.00000000000004,
      "bleu_stderr": 1.464411857851008
    }
  }
}

Contoh metrik kinerja untuk benchmark gen-qa kustom yang divisualisasikan di Studio SageMaker

MLFlow penebangan

Berikan ARN SageMaker MLFlow sumber daya Anda

SageMaker Studio menggunakan MLFlow aplikasi default yang disediakan di setiap domain Studio saat Anda menggunakan kemampuan penyesuaian model untuk pertama kalinya. SageMaker Studio menggunakan ARN terkait MLflow aplikasi default dalam pengiriman pekerjaan evaluasi.

Anda juga dapat mengirimkan pekerjaan evaluasi Anda dan secara eksplisit memberikan MLFlow ARN Sumber Daya untuk mengalirkan metrik ke pelacakan server/app terkait tersebut untuk analisis waktu nyata.

SageMaker SDK Python


evaluator = BenchMarkEvaluator(
    benchmark=Benchmark.MMLU,
    model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>",
    s3_output_path="s3://<bucket-name>/<prefix>/eval/",
    mlflow_resource_arn="arn:aws:sagemaker:<region>:<account-id>:mlflow-tracking-server/<tracking-server-name>",
    evaluate_base_model=False
)

execution = evaluator.evaluate()

Visualisasi metrik tingkat model dan tingkat sistem:

Kesalahan dan akurasi tingkat model sampel untuk tugas pembandingan MMLU

Contoh metrik bawaan untuk tugas pembandingan LLMAJ

Contoh metrik tingkat sistem untuk tugas pembandingan MMLU

TensorBoard

Kirimkan pekerjaan evaluasi Anda dengan lokasi keluaran AWS S3. SageMaker secara otomatis mengunggah TensorBoard file ke lokasi.

SageMaker mengunggah TensorBoard file ke AWS S3 di lokasi berikut:


s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/tensorboard_results/eval/

Lewati lokasi AWS S3 sebagai berikut

Contoh metrik tingkat model

SageMaker TensorBoard menampilkan hasil dari pekerjaan benchmarking

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Jenis evaluasi dan Job Submission

Format Set Data yang Didukung untuk Tugas Bring-Your-Own-Dataset (BYOD)