Informazioni sui risultati di un processo di valutazione automatica
Al termine del processo di valutazione automatica del modello, i risultati vengono salvati in Amazon S3. Le sezioni seguenti descrivono i file generati e spiegano come interpretarli.
Interpretazione della struttura del file output.json
Il file output.json contiene i punteggi aggregati per i set di dati e le metriche selezionati.
Di seguito è riportato un esempio di output.
{ "evaluations": [{ "evaluation_name": "factual_knowledge", "dataset_name": "trex", ## The structure of the prompt template changes based on the foundation model selected "prompt_template": "<s>[INST] <<SYS>>Answer the question at the end in as few words as possible. Do not repeat the question. Do not answer in complete sentences.<</SYS> Question: $feature [/INST]", "dataset_scores": [{ "name": "factual_knowledge", "value": 0.2966666666666667 }], "category_scores": [{ "name": "Author", "scores": [{ "name": "factual_knowledge", "value": 0.4117647058823529 }] }, .... { "name": "Capitals", "scores": [{ "name": "factual_knowledge", "value": 0.2857142857142857 }] } ] }] }
Interpretazione della struttura del file dei risultati relativi all’istanza
Un file evaluation_name_dataset_name.jsonl che contiene i risultati relativi all’istanza per ogni richiesta jsonlines. Se erano presenti 300 richieste nei dati di input di jsonlines, questo file di output jsonlines conterrà 300 risposte. Il file di output contiene la richiesta al modello seguita dal punteggio per quella valutazione. Segue un esempio di output relativo all’istanza.
Interpretazione del report
Un report di valutazione contiene i risultati del processo di valutazione del modello di fondazione. Il contenuto del report di valutazione dipende dal tipo di attività utilizzato per valutare il modello. Ogni report contiene le sezioni seguenti:
-
I punteggi complessivi per ogni valutazione riuscita nell’ambito dell’attività di valutazione. Come esempio di valutazione con un set di dati, se hai valutato il tuo modello per un’attività di classificazione per Accuratezza e Robustezza semantica, nella parte superiore del report viene visualizzata una tabella che riassume i risultati della valutazione per Accuratezza e Robustezza semantica. Altre valutazioni con altri set di dati possono essere strutturate in modo diverso.
-
La configurazione per il processo di valutazione, inclusi il nome del modello, il tipo, i metodi di valutazione utilizzati e i set di dati rispetto ai quali è stato valutato il modello.
-
Una sezione Risultati dettagliati della valutazione con un riepilogo dell’algoritmo di valutazione, informazioni e link a tutti i set di dati integrati, le modalità di calcolo dei punteggi e le tabelle che mostrano alcuni dati di esempio con i punteggi associati.
-
Una sezione Valutazioni non riuscite che contiene un elenco di valutazioni non completate. Se tutte le valutazioni sono state eseguite correttamente, questa sezione del report viene omessa.