Formati delle metriche di valutazione - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Formati delle metriche di valutazione

Valutazione della qualità del modello in base a questi formati metrici:

  • Riepilogo della valutazione del modello

  • MLFlow

  • TensorBoard

Riepilogo della valutazione del modello

Quando invii il lavoro di valutazione, specifichi una posizione di output AWS S3. SageMaker carica automaticamente il file .json di riepilogo della valutazione nella posizione. Il percorso S3 di riepilogo del benchmark è il seguente:

s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/eval_results/

Passa la posizione S3 AWS

SageMaker Studio
Passa alla posizione dell'artefatto di output (AWS URI S3)
SageMaker Python SDK
evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>", s3_output_path="s3://<bucket-name>/<prefix>/eval/", evaluate_base_model=False ) execution = evaluator.evaluate()

Leggila direttamente .json dalla posizione AWS S3 o visualizzala automaticamente nell'interfaccia utente:

{ "results": { "custom|gen_qa_gen_qa|0": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 }, "all": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 } } }
Esempi di metriche prestazionali per un benchmark gen-qa personalizzato visualizzato in Studio SageMaker

MLFlow registrazione

Fornisci la tua SageMaker MLFlow risorsa ARN

SageMaker Studio utilizza l' MLFlow app predefinita che viene fornita su ogni dominio Studio quando si utilizza la funzionalità di personalizzazione del modello per la prima volta. SageMaker Studio utilizza l'ARN associato all' MLflow app predefinita per l'invio del lavoro di valutazione.

Puoi anche inviare il tuo lavoro di valutazione e fornire esplicitamente un ARN di MLFlow risorsa per trasmettere le metriche a detto server/app tracciamento associato per l'analisi in tempo reale.

SageMaker SDK Python

evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>", s3_output_path="s3://<bucket-name>/<prefix>/eval/", mlflow_resource_arn="arn:aws:sagemaker:<region>:<account-id>:mlflow-tracking-server/<tracking-server-name>", evaluate_base_model=False ) execution = evaluator.evaluate()

Visualizzazione metrica a livello di modello e di sistema:

Errore e precisione a livello di modello di esempio per l'attività di benchmarking MMLU
Esempi di metriche integrate per l'attività di benchmarking LLMAJ
Esempi di metriche a livello di sistema per l'attività di benchmarking MMLU

TensorBoard

Invia il tuo lavoro di valutazione con una postazione di output S3 AWS . SageMaker carica automaticamente un TensorBoard file nella posizione.

SageMaker carica il TensorBoard file su AWS S3 nella seguente posizione:

s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/tensorboard_results/eval/

Passa la posizione AWS S3 come segue

SageMaker Studio
Passa alla posizione dell'artefatto di output (AWS URI S3)
SageMaker Python SDK
evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>", s3_output_path="s3://<bucket-name>/<prefix>/eval/", evaluate_base_model=False ) execution = evaluator.evaluate()

Esempio di metriche a livello di modello

SageMaker TensorBoard visualizzazione dei risultati di un lavoro di benchmarking