Formato di output della probabilità logaritmica

Accesso e analisi dei risultati di valutazione

Una volta completato correttamente il processo di valutazione, è possibile accedere ai risultati e analizzarli utilizzando le informazioni contenute in questa sezione. In base al valore output_s3_path (ad esempio s3://output_path/) definito nella ricetta, la struttura di output è la seguente:


job_name/
├── eval-result/
│    └── results_[timestamp].json
│    └── inference_output.jsonl (only present for gen_qa)
│    └── details/
│        └── model/
│            └── execution-date-time/
│                └──details_task_name_#_datetime.parquet
└── tensorboard-results/
    └── eval/
        └── events.out.tfevents.[timestamp]

I risultati delle metriche vengono archiviati nella posizione di output S3 s3://output_path/job_name/eval-result/result-timestamp.json specificata.

I risultati di Tensorboard vengono archiviati nel percorso S3 s3://output_path/job_name/eval-tensorboard-result/eval/event.out.tfevents.epoch+ip.

Tutti gli output di inferenza, ad eccezione di llm_judge e strong_reject, vengono archiviati nel percorso S3 s3://output_path/job_name/eval-result/details/model/taskname.parquet.

Per gen_qa, il file inference_output.jsonl contiene i seguenti campi per ogni oggetto JSON:

prompt - Il prompt finale inviato al modello
inference - L’output di inferenza non elaborato del modello
gold - La risposta target dal set di dati di input
metadata - La stringa di metadati del set di dati di input, se fornita

Per visualizzare le metriche di valutazione in Tensorboard, completa la seguente procedura:

Passa a AI SageMaker Tensorboard.
Seleziona Cartelle S3.
Aggiungi il percorso della cartella S3, ad esempio s3://output_path/job-name/eval-tensorboard-result/eval.
Attendi il completamento della sincronizzazione.

Sono disponibili le visualizzazioni delle serie temporali, degli scalari e del testo.

È preferibile seguire le best practice seguenti:

Mantieni i percorsi di output organizzati per modello e tipo di benchmark.
Mantieni convenzioni di denominazione coerenti per semplificare il monitoraggio.
Salva i risultati estratti in una posizione sicura.
Monitora lo stato di TensorBoard sincronizzazione per il corretto caricamento dei dati.

È possibile trovare i registri degli errori di SageMaker HyperPod lavoro nel gruppo /aws/sagemaker/Clusters/cluster-id di CloudWatch log.

Formato di output della probabilità logaritmica

Se top_logprobs configurato nelle impostazioni di inferenza, l'output di valutazione include le probabilità di registro a livello di token nei file parquet. Ogni posizione del token contiene un dizionario dei migliori token candidati con le relative probabilità di registro nella seguente struttura:


{
"Ġint": {"logprob_value": -17.8125, "decoded_value": " int"},
"Ġthe": {"logprob_value": -2.345, "decoded_value": " the"}
}

Ogni voce del token contiene:

logprob_value: Il valore di probabilità logaritmica per il token
decoded_value: La rappresentazione di stringa decodificata leggibile dall'uomo del token

Il token tokenizer non elaborato viene utilizzato come chiave del dizionario per garantire l'unicità, fornendo al contempo un'interpretazione leggibile. decoded_value

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Avvio di un processo di valutazione

Monitoraggio MLFlow