Acceso y análisis de los resultados de la evaluación - Amazon Nova

Acceso y análisis de los resultados de la evaluación

Una vez que el trabajo de evaluación haya finalizado satisfactoriamente, podrá acceder a los resultados y analizarlos utilizando la información de esta sección. En función de la output_s3_path (por ejemplo, s3://output_path/) definida en la fórmula, la estructura de salida es la siguiente:

job_name/ ├── eval-result/ │ └── results_[timestamp].json │ └── inference_output.jsonl (only present for gen_qa) │ └── details/ │ └── model/ │ └── execution-date-time/ │ └──details_task_name_#_datetime.parquet └── tensorboard-results/ └── eval/ └── events.out.tfevents.[timestamp]

Los resultados de las métricas se almacenan en la ubicación de salida de S3 especificada s3://output_path/job_name/eval-result/result-timestamp.json.

Los resultados de Tensorboard se almacenan en la ruta de S3 s3://output_path/job_name/eval-tensorboard-result/eval/event.out.tfevents.epoch+ip.

Todos los resultados de inferencia, excepto llm_judge y strong_reject, se almacenan en la ruta de S3: s3://output_path/job_name/eval-result/details/model/taskname.parquet.

Para gen_qa, el archivo inference_output.jsonl contiene los siguientes campos para cada objeto JSON:

  • petición: última petición enviada al modelo

  • inferencia: salida de inferencia sin procesar del modelo

  • gold: la respuesta objetivo del conjunto de datos de entrada

  • metadata: la cadena de metadatos del conjunto de datos de entrada, si se proporciona

Para visualizar las métricas de evaluación en Tensorboard, siga estos pasos:

  1. Navegue hasta SageMaker AI Tensorboard.

  2. Seleccione Carpetas de S3.

  3. Agregue la ruta de la carpeta de S3, por ejemplo s3://output_path/job-name/eval-tensorboard-result/eval.

  4. Espere a que se complete la sincronización.

Hay disponibles series temporales, escalares y visualizaciones de texto.

Recomendamos que siga las siguientes prácticas recomendadas:

  • Mantenga las rutas de salida organizadas por modelo y tipo de referencia.

  • Mantenga convenciones de nomenclatura coherentes para facilitar el seguimiento.

  • Guarde los resultados extraídos en un lugar seguro.

  • Supervise el estado de sincronización de TensorBoard para que los datos se carguen correctamente.

Los registros de errores de trabajo de SageMaker HyperPod se encuentran en el grupo de registro de CloudWatch /aws/sagemaker/Clusters/cluster-id.

Formato de salida de la probabilidad logarítmica

Cuando top_logprobs se configura en los ajustes de inferencia, el resultado de la evaluación incluye las probabilidades logarítmicas del token en los archivos de parquet. Cada posición de un token contiene un diccionario de los principales tokens candidatos con sus probabilidades logarítmicas siguiendo esta estructura:

{ "Ġint": {"logprob_value": -17.8125, "decoded_value": " int"}, "Ġthe": {"logprob_value": -2.345, "decoded_value": " the"} }

Cada entrada de token contiene lo siguiente:

  • logprob_value: el valor de probabilidad logarítmica del token

  • decoded_value: la representación en cadena decodificada legible por humanos del token

El token tokenizador sin procesar se utiliza como clave del diccionario para garantizar la exclusividad, mientras que decoded_value proporciona una interpretación legible.