Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà. # Formati delle metriche di valutazione Valutazione della qualità del modello in base a questi formati metrici: + Riepilogo della valutazione del modello + MLFlow + TensorBoard ## Riepilogo della valutazione del modello Quando invii il lavoro di valutazione, specifichi una posizione di output AWS S3. SageMaker carica automaticamente il file.json di riepilogo della valutazione nella posizione. Il percorso S3 di riepilogo del benchmark è il seguente: ``` s3:////output/output//eval_results/ ``` **Passa la posizione S3 AWS ** ------ #### [ SageMaker Studio ] ![Passa alla posizione dell'artefatto di output (AWS URI S3)](http://docs.aws.amazon.com/it_it/sagemaker/latest/dg/images/s3-output-path-submission-sagemaker-studio.png) ------ #### [ SageMaker Python SDK ] ``` evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:::model-package//", s3_output_path="s3:////eval/", evaluate_base_model=False ) execution = evaluator.evaluate() ``` ------ Leggilo direttamente `.json` dalla posizione AWS S3 o visualizzato automaticamente nell'interfaccia utente: ``` { "results": { "custom|gen_qa_gen_qa|0": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 }, "all": { "rouge1": 0.9152812653966208, "rouge1_stderr": 0.003536439199232507, "rouge2": 0.774569918517409, "rouge2_stderr": 0.006368825746765958, "rougeL": 0.9111255645823356, "rougeL_stderr": 0.003603841524881021, "em": 0.6562150055991042, "em_stderr": 0.007948251702846893, "qem": 0.7522396416573348, "qem_stderr": 0.007224355240883467, "f1": 0.8428757602152095, "f1_stderr": 0.005186300690881584, "f1_score_quasi": 0.9156170336744968, "f1_score_quasi_stderr": 0.003667700152375464, "bleu": 100.00000000000004, "bleu_stderr": 1.464411857851008 } } } ``` ![Esempi di metriche prestazionali per un benchmark gen-qa personalizzato visualizzato in Studio SageMaker](http://docs.aws.amazon.com/it_it/sagemaker/latest/dg/images/gen-qa-metrics-visualization-sagemaker-studio.png) ## MLFlow registrazione **Fornisci la tua SageMaker MLFlow risorsa ARN** SageMaker Studio utilizza l' MLFlow app predefinita che viene fornita su ogni dominio Studio quando si utilizza la funzionalità di personalizzazione del modello per la prima volta. SageMaker Studio utilizza l'ARN associato all' MLflow app predefinita per l'invio del lavoro di valutazione. Puoi anche inviare il tuo lavoro di valutazione e fornire esplicitamente un ARN di MLFlow risorsa per trasmettere le metriche a detto server/app tracciamento associato per l'analisi in tempo reale. **SageMaker SDK Python** ``` evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:::model-package//", s3_output_path="s3:////eval/", mlflow_resource_arn="arn:aws:sagemaker:::mlflow-tracking-server/", evaluate_base_model=False ) execution = evaluator.evaluate() ``` Visualizzazione metrica a livello di modello e di sistema: ![Errore e precisione a livello di modello di esempio per l'attività di benchmarking MMLU](http://docs.aws.amazon.com/it_it/sagemaker/latest/dg/images/model-metrics-mlflow.png) ![Esempi di metriche integrate per l'attività di benchmarking LLMAJ](http://docs.aws.amazon.com/it_it/sagemaker/latest/dg/images/llmaj-metrics-mlflow.png) ![Esempi di metriche a livello di sistema per l'attività di benchmarking MMLU](http://docs.aws.amazon.com/it_it/sagemaker/latest/dg/images/system-metrics-mlflow.png) ## TensorBoard Invia il tuo lavoro di valutazione con una postazione di output S3 AWS . SageMaker carica automaticamente un TensorBoard file nella posizione. SageMaker carica il TensorBoard file su AWS S3 nella seguente posizione: ``` s3:////output/output//tensorboard_results/eval/ ``` **Passa la posizione AWS S3 come segue** ------ #### [ SageMaker Studio ] ![Passa alla posizione dell'artefatto di output (AWS URI S3)](http://docs.aws.amazon.com/it_it/sagemaker/latest/dg/images/s3-output-path-submission-sagemaker-studio.png) ------ #### [ SageMaker Python SDK ] ``` evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:::model-package//", s3_output_path="s3:////eval/", evaluate_base_model=False ) execution = evaluator.evaluate() ``` ------ **Esempio di metriche a livello di modello** ![SageMaker TensorBoard visualizzazione dei risultati di un lavoro di benchmarking](http://docs.aws.amazon.com/it_it/sagemaker/latest/dg/images/metrics-in-tensorboard.png)