Accesso e analisi dei risultati di valutazione - Amazon Nova

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Accesso e analisi dei risultati di valutazione

Una volta completato correttamente il processo di valutazione, è possibile accedere ai risultati e analizzarli utilizzando le informazioni contenute in questa sezione. In base al valore output_s3_path (ad esempio s3://output_path/) definito nella ricetta, la struttura di output è la seguente:

job_name/ ├── eval-result/ │ └── results_[timestamp].json │ └── inference_output.jsonl (only present for gen_qa) │ └── details/ │ └── model/ │ └── execution-date-time/ │ └──details_task_name_#_datetime.parquet └── tensorboard-results/ └── eval/ └── events.out.tfevents.[timestamp]

I risultati delle metriche vengono archiviati nella posizione di output S3 s3://output_path/job_name/eval-result/result-timestamp.json specificata.

I risultati di Tensorboard vengono archiviati nel percorso S3 s3://output_path/job_name/eval-tensorboard-result/eval/event.out.tfevents.epoch+ip.

Tutti gli output di inferenza, ad eccezione di llm_judge e strong_reject, vengono archiviati nel percorso S3 s3://output_path/job_name/eval-result/details/model/taskname.parquet.

Per gen_qa, il file inference_output.jsonl contiene i seguenti campi per ogni oggetto JSON:

  • prompt - Il prompt finale inviato al modello

  • inference - L’output di inferenza non elaborato del modello

  • gold - La risposta target dal set di dati di input

  • metadata - La stringa di metadati del set di dati di input, se fornita

Per visualizzare le metriche di valutazione in Tensorboard, completa la seguente procedura:

  1. Passa a AI SageMaker Tensorboard.

  2. Seleziona Cartelle S3.

  3. Aggiungi il percorso della cartella S3, ad esempio s3://output_path/job-name/eval-tensorboard-result/eval.

  4. Attendi il completamento della sincronizzazione.

Sono disponibili le visualizzazioni delle serie temporali, degli scalari e del testo.

È preferibile seguire le best practice seguenti:

  • Mantieni i percorsi di output organizzati per modello e tipo di benchmark.

  • Mantieni convenzioni di denominazione coerenti per semplificare il monitoraggio.

  • Salva i risultati estratti in una posizione sicura.

  • Monitora lo stato di TensorBoard sincronizzazione per il corretto caricamento dei dati.

È possibile trovare i log degli errori di SageMaker HyperPod lavoro nel gruppo /aws/sagemaker/Clusters/cluster-id di CloudWatch log.

Formato di output della probabilità logaritmica

Se top_logprobs configurato nelle impostazioni di inferenza, l'output di valutazione include le probabilità di registro a livello di token nei file parquet. Ogni posizione del token contiene un dizionario dei migliori token candidati con le relative probabilità di registro nella seguente struttura:

{ "Ġint": {"logprob_value": -17.8125, "decoded_value": " int"}, "Ġthe": {"logprob_value": -2.345, "decoded_value": " the"} }

Ogni voce del token contiene:

  • logprob_value: Il valore di probabilità logaritmica per il token

  • decoded_value: La rappresentazione di stringa decodificata leggibile dall'uomo del token

Il token tokenizer non elaborato viene utilizzato come chiave del dizionario per garantire l'unicità, fornendo al contempo un'interpretazione leggibile. decoded_value