Detalhes dos resultados dos testes no Test Workbench
Os resultados do teste mostram os detalhes do conjunto de testes, as intenções usadas e os slots usados. Ele também fornece o detalhamento geral das entradas do conjunto de teste, incluindo os resultados gerais, os resultados da conversa, a intenção e os resultados do slot.
Os resultados do teste incluem todas as informações relacionadas ao teste, como:
-
Metadados de detalhes do teste
-
Resultados gerais
-
Resultados da conversa
-
Intenção e resultados do slot
-
Resultados detalhados
Guia de resultados gerais:
Detalhamento da entrada do conjunto de teste – Este gráfico mostra o detalhamento do número de conversas e enunciados de entrada única no conjunto de teste.
Detalhamento de entrada única – Exibe dois gráficos que incluem conversas de ponta a ponta e transcrições de fala. O número de entradas aprovadas e reprovadas é indicado em cada gráfico. Observação: o gráfico de transcrição de fala estará visível somente para o conjunto de teste de áudio.
Detalhamento de entrada única – Exibe dois gráficos que incluem conversas de ponta a ponta e transcrições de fala. O número de entradas aprovadas e reprovadas é indicado em cada gráfico. Observação: o gráfico de transcrição de fala estará visível somente para o conjunto de teste de áudio.
Guia de resultados da conversa:
Taxas de aprovação da conversa – A tabela de taxas de aprovação da conversa é usada para ver quais intenções e slots são usados em cada conversa no conjunto de teste. Você pode visualizar onde a conversa falhou analisando qual intenção ou slot falhou, junto com a porcentagem de aprovação de cada intenção e slot.
Métricas de falha de intenção de conversa – Essa métrica mostra as 5 intenções com pior desempenho no conjunto de teste. Esse painel mostra um gráfico de qual porcentagem ou número de intenções foram bem-sucedidas ou falhas com base nos logs de conversas ou na transcrição do bot. Uma intenção bem-sucedida não significa que toda a conversa foi bem-sucedida. Essas métricas aplicam-se apenas ao valor das intenções, independentemente de qual intenção veio antes ou depois.
Métricas de falha de slot de conversa – Essa métrica mostra as 5 slots com pior desempenho no conjunto de teste. Indicou a taxa de sucesso de cada slot na intenção. O gráfico de barras mostra a transcrição da fala e as conversas de ponta a ponta para cada slot na intenção.
Guia de resultados de intenção e slot:
Métricas de reconhecimento de intenção – Mostra uma tabela de quantas intenções foram reconhecidas com sucesso. Exibe a taxa de aprovação da transcrição da fala e das conversas de ponta a ponta.
Métricas de resolução de slots – Mostra as intenções e os slots separadamente e a taxa de sucesso e falha de cada slot para cada intenção usada na conversa ou em uma única entrada. Exibe a taxa de aprovação da transcrição da fala e das conversas de ponta a ponta.
Guia de resultados detalhados:
Resultados detalhados – Mostra uma tabela detalhada no log de conversas com os enunciados do usuário e do agente e a saída esperada e a transcrição esperadas para cada slot. Você pode baixar esse relatório selecionando o botão Download.
A seguinte tabela lista as mensagens de erro de falha no resultado com cenários.
| Cenário | A mensagem de erro | Ação |
|---|---|---|
| Incompatibilidade de intenções | Esperava a intenção do BookFlight, mas era a intenção do BookHotel. | Ignorar outros turnos na conversa |
| Incompatibilidade de elicitação de slots | Esperava-se que o slot departureDate fosse obtido, mas era cabinType. | Ignorar outros turnos na conversa |
| Incompatibilidade do valor do slot | Incompatibilidade entre o valor esperado e o real do slot. | Continuar com outros turnos nas conversas |
| O prompt consecutivo do agente está faltando | Esperava que o bot retornasse uma solicitação do agente neste turno, mas ela não foi recebida. | Ignorar outros turnos na conversa |
| Incompatibilidade de transcrição | A transcrição esperada não correspondeu à transcrição real. | Continuar com outros turnos nas conversas |
| Slot opcional não elicitado | Esperava que fosse elicitar o slot cabinType no próximo turno, mas a intenção atual foi atendida antes disso. | Ignorar outros turnos na conversa |
| Slot não reconhecido | O slot departureDate esperado não foi reconhecido neste turno. | Ignorar outros turnos na conversa |
| Solicitação consecutiva adicional do agente | Esperava o turno de um usuário, mas era um prompt do agente | Ignorar outros turnos na conversa |