Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Formati delle metriche di valutazione
Valutazione della qualità del modello in base a questi formati metrici:
Riepilogo della valutazione del modello
MLFlow
TensorBoard
Riepilogo della valutazione del modello
Quando invii il lavoro di valutazione, specifichi una posizione di output AWS S3. SageMaker carica automaticamente il file .json di riepilogo della valutazione nella posizione. Il percorso S3 di riepilogo del benchmark è il seguente:
s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/eval_results/
Passa la posizione S3 AWS
Leggila direttamente .json dalla posizione AWS S3 o visualizzala automaticamente nell'interfaccia utente:
{ "results": { "custom|gen_qa_gen_qa|0": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 }, "all": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 } } }
MLFlow registrazione
Fornisci la tua SageMaker MLFlow risorsa ARN
SageMaker Studio utilizza l' MLFlow app predefinita che viene fornita su ogni dominio Studio quando si utilizza la funzionalità di personalizzazione del modello per la prima volta. SageMaker Studio utilizza l'ARN associato all' MLflow app predefinita per l'invio del lavoro di valutazione.
Puoi anche inviare il tuo lavoro di valutazione e fornire esplicitamente un ARN di MLFlow risorsa per trasmettere le metriche a detto server/app tracciamento associato per l'analisi in tempo reale.
SageMaker SDK Python
evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>", s3_output_path="s3://<bucket-name>/<prefix>/eval/", mlflow_resource_arn="arn:aws:sagemaker:<region>:<account-id>:mlflow-tracking-server/<tracking-server-name>", evaluate_base_model=False ) execution = evaluator.evaluate()
Visualizzazione metrica a livello di modello e di sistema:
TensorBoard
Invia il tuo lavoro di valutazione con una postazione di output S3 AWS . SageMaker carica automaticamente un TensorBoard file nella posizione.
SageMaker carica il TensorBoard file su AWS S3 nella seguente posizione:
s3://<your-provide-s3-location>/<training-job-name>/output/output/<evaluation-job-name>/tensorboard_results/eval/
Passa la posizione AWS S3 come segue
Esempio di metriche a livello di modello