Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Accesso e analisi dei risultati di valutazione
Una volta completato correttamente il processo di valutazione, è possibile accedere ai risultati e analizzarli utilizzando le informazioni contenute in questa sezione. In base al valore output_s3_path (ad esempio s3://output_path/) definito nella ricetta, la struttura di output è la seguente:
job_name/ ├── eval-result/ │ └── results_[timestamp].json │ └── inference_output.jsonl (only present for gen_qa) │ └── details/ │ └── model/ │ └── execution-date-time/ │ └──details_task_name_#_datetime.parquet └── tensorboard-results/ └── eval/ └── events.out.tfevents.[timestamp]
I risultati delle metriche vengono archiviati nella posizione di output S3 s3://output_path/job_name/eval-result/result-timestamp.json specificata.
I risultati di Tensorboard vengono archiviati nel percorso S3 s3://output_path/job_name/eval-tensorboard-result/eval/event.out.tfevents.epoch+ip.
Tutti gli output di inferenza, ad eccezione di llm_judge e strong_reject, vengono archiviati nel percorso S3 s3://output_path/job_name/eval-result/details/model/taskname.parquet.
Per gen_qa, il file inference_output.jsonl contiene i seguenti campi per ogni oggetto JSON:
-
prompt - Il prompt finale inviato al modello
-
inference - L’output di inferenza non elaborato del modello
-
gold - La risposta target dal set di dati di input
-
metadata - La stringa di metadati del set di dati di input, se fornita
Per visualizzare le metriche di valutazione in Tensorboard, completa la seguente procedura:
-
Passa a AI SageMaker Tensorboard.
-
Seleziona Cartelle S3.
-
Aggiungi il percorso della cartella S3, ad esempio
s3://output_path/job-name/eval-tensorboard-result/eval. -
Attendi il completamento della sincronizzazione.
Sono disponibili le visualizzazioni delle serie temporali, degli scalari e del testo.
È preferibile seguire le best practice seguenti:
-
Mantieni i percorsi di output organizzati per modello e tipo di benchmark.
-
Mantieni convenzioni di denominazione coerenti per semplificare il monitoraggio.
-
Salva i risultati estratti in una posizione sicura.
-
Monitora lo stato di TensorBoard sincronizzazione per il corretto caricamento dei dati.
È possibile trovare i log degli errori di SageMaker HyperPod lavoro nel gruppo /aws/sagemaker/Clusters/cluster-id di CloudWatch log.
Formato di output della probabilità logaritmica
Se top_logprobs configurato nelle impostazioni di inferenza, l'output di valutazione include le probabilità di registro a livello di token nei file parquet. Ogni posizione del token contiene un dizionario dei migliori token candidati con le relative probabilità di registro nella seguente struttura:
{ "Ġint": {"logprob_value": -17.8125, "decoded_value": " int"}, "Ġthe": {"logprob_value": -2.345, "decoded_value": " the"} }
Ogni voce del token contiene:
-
logprob_value: Il valore di probabilità logaritmica per il token -
decoded_value: La rappresentazione di stringa decodificata leggibile dall'uomo del token
Il token tokenizer non elaborato viene utilizzato come chiave del dizionario per garantire l'unicità, fornendo al contempo un'interpretazione leggibile. decoded_value