Acessar e analisar os resultados da avaliação - Amazon Nova

Acessar e analisar os resultados da avaliação

Depois que seu trabalho de avaliação for concluído com êxito, você poderá acessar e analisar os resultados usando as informações nesta seção. Com base no output_s3_path (como s3://output_path/) definido na fórmula, a estrutura de saída é a seguinte:

job_name/ ├── eval-result/ │ └── results_[timestamp].json │ └── inference_output.jsonl (only present for gen_qa) │ └── details/ │ └── model/ │ └── execution-date-time/ │ └──details_task_name_#_datetime.parquet └── tensorboard-results/ └── eval/ └── events.out.tfevents.[timestamp]

Os resultados das métricas são armazenados no local de saída s3://output_path/job_name/eval-result/result-timestamp.json especificado do S3.

Os resultados do TensorBoard são armazenados no caminho do S3 s3://output_path/job_name/eval-tensorboard-result/eval/event.out.tfevents.epoch+ip.

Todas as saídas de inferência, exceto llm_judge e strong_reject, são armazenadas no caminho do S3: s3://output_path/job_name/eval-result/details/model/taskname.parquet.

Para gen_qa, o arquivo inference_output.jsonl contém os seguintes campos para cada objeto JSON:

  • prompt: o prompt final enviado ao modelo.

  • inferência: a saída bruta de inferência do modelo.

  • gold: a resposta esperada do conjunto de dados de entrada

  • metadata: a string de metadados do conjunto de dados de entrada, se fornecida

Para visualizar suas métricas de avaliação no TensorBoard, conclua as seguintes etapas:

  1. Navegue até o TensorBoard no SageMaker AI.

  2. Selecione Pastas do S3.

  3. Adicione o caminho da pasta do S3; por exemplo, s3://output_path/job-name/eval-tensorboard-result/eval.

  4. Aguarde a conclusão da sincronização.

As visualizações de séries temporais, escalares e de texto estão disponíveis.

Recomendamos seguir estas práticas recomendadas:

  • Mantenha seus caminhos de saída organizados por modelo e tipo de referência.

  • Mantenha convenções de nomenclatura consistentes para facilitar o rastreamento.

  • Salve os resultados extraídos em um local seguro.

  • Monitore o status de sincronização do TensorBoard para garantir que os dados sejam carregados com êxito.

Você pode encontrar os logs de erros de tarefas do SageMaker HyperPod no grupo de logs /aws/sagemaker/Clusters/cluster-id do CloudWatch.

Formato de saída da probabilidade logarítmica

Quando top_logprobs está configurado em suas definições de inferência, o resultado da avaliação inclui probabilidades logarítmicas em nível de token nos arquivos parquet. Cada posição de token contém um dicionário dos principais tokens candidatos com suas probabilidades logarítmicas na seguinte estrutura:

{ "Ġint": {"logprob_value": -17.8125, "decoded_value": " int"}, "Ġthe": {"logprob_value": -2.345, "decoded_value": " the"} }

Cada entrada de token contém:

  • logprob_value: o valor da probabilidade logarítmica para o token

  • decoded_value: a representação de string decodificada legível por humanos do token

O token bruto do tokenizador é usado como a chave do dicionário para garantir a exclusividade, enquanto decoded_value fornece uma interpretação legível.