

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Accesso e analisi dei risultati di valutazione
<a name="customize-fine-tune-evaluate-access-results"></a>

Una volta completato correttamente il processo di valutazione, è possibile accedere ai risultati e analizzarli utilizzando le informazioni contenute in questa sezione. In base al valore `output_s3_path` (ad esempio `s3://output_path/`) definito nella ricetta, la struttura di output è la seguente:

```
job_name/
├── eval-result/
│    └── results_[timestamp].json
│    └── inference_output.jsonl (only present for gen_qa)
│    └── details/
│        └── model/
│            └── execution-date-time/
│                └──details_task_name_#_datetime.parquet
└── tensorboard-results/
    └── eval/
        └── events.out.tfevents.[timestamp]
```

I risultati delle metriche vengono archiviati nella posizione di output S3 `s3://output_path/job_name/eval-result/result-timestamp.json` specificata.

I risultati di Tensorboard vengono archiviati nel percorso S3 `s3://output_path/job_name/eval-tensorboard-result/eval/event.out.tfevents.epoch+ip`.

Tutti gli output di inferenza, ad eccezione di `llm_judge` e `strong_reject`, vengono archiviati nel percorso S3 `s3://output_path/job_name/eval-result/details/model/taskname.parquet`.

Per `gen_qa`, il file `inference_output.jsonl` contiene i seguenti campi per ogni oggetto JSON:
+ prompt - Il prompt finale inviato al modello
+ inference - L’output di inferenza non elaborato del modello
+ gold - La risposta target dal set di dati di input
+ metadata - La stringa di metadati del set di dati di input, se fornita

Per visualizzare le metriche di valutazione in Tensorboard, completa la seguente procedura:

1. Passa a AI SageMaker Tensorboard.

1. Seleziona **Cartelle S3**.

1. Aggiungi il percorso della cartella S3, ad esempio `s3://output_path/job-name/eval-tensorboard-result/eval`.

1. Attendi il completamento della sincronizzazione.

Sono disponibili le visualizzazioni delle serie temporali, degli scalari e del testo.

È preferibile seguire le best practice seguenti:
+ Mantieni i percorsi di output organizzati per modello e tipo di benchmark.
+ Mantieni convenzioni di denominazione coerenti per semplificare il monitoraggio.
+ Salva i risultati estratti in una posizione sicura.
+ Monitora lo stato di TensorBoard sincronizzazione per il corretto caricamento dei dati.

È possibile trovare i log degli errori di SageMaker HyperPod lavoro nel gruppo `/aws/sagemaker/Clusters/cluster-id` di CloudWatch log.

## Formato di output della probabilità logaritmica
<a name="nova-hp-access-results-logprobs"></a>

Se `top_logprobs` configurato nelle impostazioni di inferenza, l'output di valutazione include le probabilità di registro a livello di token nei file parquet. Ogni posizione del token contiene un dizionario dei migliori token candidati con le relative probabilità di registro nella seguente struttura:

```
{
"Ġint": {"logprob_value": -17.8125, "decoded_value": " int"},
"Ġthe": {"logprob_value": -2.345, "decoded_value": " the"}
}
```

Ogni voce del token contiene:
+ `logprob_value`: Il valore di probabilità logaritmica per il token
+ `decoded_value`: La rappresentazione di stringa decodificata leggibile dall'uomo del token

Il token tokenizer non elaborato viene utilizzato come chiave del dizionario per garantire l'unicità, fornendo al contempo un'interpretazione leggibile. `decoded_value`