Detalhes dos resultados dos testes no Test Workbench - Guia do desenvolvedor

Detalhes dos resultados dos testes no Test Workbench

Os resultados do teste mostram os detalhes do conjunto de testes, as intenções usadas e os slots usados. Ele também fornece o detalhamento geral das entradas do conjunto de teste, incluindo os resultados gerais, os resultados da conversa, a intenção e os resultados do slot.

Os resultados do teste incluem todas as informações relacionadas ao teste, como:

  • Metadados de detalhes do teste

  • Resultados gerais

  • Resultados da conversa

  • Intenção e resultados do slot

  • Resultados detalhados

Guia de resultados gerais:

O conjunto de testes insere um gráfico de detalhamento nos resultados do teste usando a Bancada de testes.

Detalhamento da entrada do conjunto de teste – Este gráfico mostra o detalhamento do número de conversas e enunciados de entrada única no conjunto de teste.

O gráfico de detalhamento de entrada única nos resultados do teste usando o Test Workbench.

Detalhamento de entrada única – Exibe dois gráficos que incluem conversas de ponta a ponta e transcrições de fala. O número de entradas aprovadas e reprovadas é indicado em cada gráfico. Observação: o gráfico de transcrição de fala estará visível somente para o conjunto de teste de áudio.

O gráfico de detalhamento de conversa nos resultados do teste usando o Test Workbench.

Detalhamento de entrada única – Exibe dois gráficos que incluem conversas de ponta a ponta e transcrições de fala. O número de entradas aprovadas e reprovadas é indicado em cada gráfico. Observação: o gráfico de transcrição de fala estará visível somente para o conjunto de teste de áudio.

Guia de resultados da conversa:

O gráfico de taxa de aprovação de conversa nos resultados do teste usando o Test Workbench.

Taxas de aprovação da conversa – A tabela de taxas de aprovação da conversa é usada para ver quais intenções e slots são usados em cada conversa no conjunto de teste. Você pode visualizar onde a conversa falhou analisando qual intenção ou slot falhou, junto com a porcentagem de aprovação de cada intenção e slot.

O gráfico de métricas de falha de intenção de conversa nos resultados do teste usando o Test Workbench.

Métricas de falha de intenção de conversa – Essa métrica mostra as 5 intenções com pior desempenho no conjunto de teste. Esse painel mostra um gráfico de qual porcentagem ou número de intenções foram bem-sucedidas ou falhas com base nos logs de conversas ou na transcrição do bot. Uma intenção bem-sucedida não significa que toda a conversa foi bem-sucedida. Essas métricas aplicam-se apenas ao valor das intenções, independentemente de qual intenção veio antes ou depois.

O gráfico de métricas de falha de slot de conversa nos resultados do teste usando o Test Workbench.

Métricas de falha de slot de conversa – Essa métrica mostra as 5 slots com pior desempenho no conjunto de teste. Indicou a taxa de sucesso de cada slot na intenção. O gráfico de barras mostra a transcrição da fala e as conversas de ponta a ponta para cada slot na intenção.

Guia de resultados de intenção e slot:

O gráfico de métricas de reconhecimento de intenção nos resultados do teste usando o Test Workbench.

Métricas de reconhecimento de intenção – Mostra uma tabela de quantas intenções foram reconhecidas com sucesso. Exibe a taxa de aprovação da transcrição da fala e das conversas de ponta a ponta.

O gráfico de métricas de resolução de slot nos resultados do teste usando o Test Workbench.

Métricas de resolução de slots – Mostra as intenções e os slots separadamente e a taxa de sucesso e falha de cada slot para cada intenção usada na conversa ou em uma única entrada. Exibe a taxa de aprovação da transcrição da fala e das conversas de ponta a ponta.

Guia de resultados detalhados:

Os resultados detalhados nos resultados do teste usando o Test Workbench.

Resultados detalhados – Mostra uma tabela detalhada no log de conversas com os enunciados do usuário e do agente e a saída esperada e a transcrição esperadas para cada slot. Você pode baixar esse relatório selecionando o botão Download.

A seguinte tabela lista as mensagens de erro de falha no resultado com cenários.

Cenário A mensagem de erro Ação
Incompatibilidade de intenções Esperava a intenção do BookFlight, mas era a intenção do BookHotel.

Ignorar outros turnos na conversa

Incompatibilidade de elicitação de slots Esperava-se que o slot departureDate fosse obtido, mas era cabinType. Ignorar outros turnos na conversa
Incompatibilidade do valor do slot Incompatibilidade entre o valor esperado e o real do slot. Continuar com outros turnos nas conversas
O prompt consecutivo do agente está faltando Esperava que o bot retornasse uma solicitação do agente neste turno, mas ela não foi recebida. Ignorar outros turnos na conversa
Incompatibilidade de transcrição A transcrição esperada não correspondeu à transcrição real. Continuar com outros turnos nas conversas
Slot opcional não elicitado Esperava que fosse elicitar o slot cabinType no próximo turno, mas a intenção atual foi atendida antes disso. Ignorar outros turnos na conversa
Slot não reconhecido O slot departureDate esperado não foi reconhecido neste turno. Ignorar outros turnos na conversa
Solicitação consecutiva adicional do agente Esperava o turno de um usuário, mas era um prompt do agente Ignorar outros turnos na conversa