Detalhes dos resultados dos testes no Test Workbench

Os resultados do teste mostram os detalhes do conjunto de testes, as intenções usadas e os slots usados. Ele também fornece o detalhamento geral das entradas do conjunto de teste, incluindo os resultados gerais, os resultados da conversa, a intenção e os resultados do slot.

Os resultados do teste incluem todas as informações relacionadas ao teste, como:

Metadados de detalhes do teste
Resultados gerais
Resultados da conversa
Intenção e resultados do slot
Resultados detalhados

Guia de resultados gerais:

O conjunto de testes insere um gráfico de detalhamento nos resultados do teste usando a Bancada de testes.

Detalhamento da entrada do conjunto de teste – Este gráfico mostra o detalhamento do número de conversas e enunciados de entrada única no conjunto de teste.

O gráfico de detalhamento de entrada única nos resultados do teste usando o Test Workbench.

Detalhamento de entrada única – Exibe dois gráficos que incluem conversas de ponta a ponta e transcrições de fala. O número de entradas aprovadas e reprovadas é indicado em cada gráfico. Observação: o gráfico de transcrição de fala estará visível somente para o conjunto de teste de áudio.

O gráfico de detalhamento de conversa nos resultados do teste usando o Test Workbench.

Guia de resultados da conversa:

O gráfico de taxa de aprovação de conversa nos resultados do teste usando o Test Workbench.

Taxas de aprovação da conversa – A tabela de taxas de aprovação da conversa é usada para ver quais intenções e slots são usados em cada conversa no conjunto de teste. Você pode visualizar onde a conversa falhou analisando qual intenção ou slot falhou, junto com a porcentagem de aprovação de cada intenção e slot.

O gráfico de métricas de falha de intenção de conversa nos resultados do teste usando o Test Workbench.

Métricas de falha de intenção de conversa – Essa métrica mostra as 5 intenções com pior desempenho no conjunto de teste. Esse painel mostra um gráfico de qual porcentagem ou número de intenções foram bem-sucedidas ou falhas com base nos logs de conversas ou na transcrição do bot. Uma intenção bem-sucedida não significa que toda a conversa foi bem-sucedida. Essas métricas aplicam-se apenas ao valor das intenções, independentemente de qual intenção veio antes ou depois.

O gráfico de métricas de falha de slot de conversa nos resultados do teste usando o Test Workbench.

Métricas de falha de slot de conversa – Essa métrica mostra as 5 slots com pior desempenho no conjunto de teste. Indicou a taxa de sucesso de cada slot na intenção. O gráfico de barras mostra a transcrição da fala e as conversas de ponta a ponta para cada slot na intenção.

Guia de resultados de intenção e slot:

O gráfico de métricas de reconhecimento de intenção nos resultados do teste usando o Test Workbench.

Métricas de reconhecimento de intenção – Mostra uma tabela de quantas intenções foram reconhecidas com sucesso. Exibe a taxa de aprovação da transcrição da fala e das conversas de ponta a ponta.

O gráfico de métricas de resolução de slot nos resultados do teste usando o Test Workbench.

Métricas de resolução de slots – Mostra as intenções e os slots separadamente e a taxa de sucesso e falha de cada slot para cada intenção usada na conversa ou em uma única entrada. Exibe a taxa de aprovação da transcrição da fala e das conversas de ponta a ponta.

Guia de resultados detalhados:

Os resultados detalhados nos resultados do teste usando o Test Workbench.

Resultados detalhados – Mostra uma tabela detalhada no log de conversas com os enunciados do usuário e do agente e a saída esperada e a transcrição esperadas para cada slot. Você pode baixar esse relatório selecionando o botão Download.

A seguinte tabela lista as mensagens de erro de falha no resultado com cenários.

Cenário	Mensagem de erro	Ação
Incompatibilidade de intenções	BookFlight Intenção esperada, mas era BookHotel intenção.	Ignorar outros turnos na conversa
Incompatibilidade de elicitação de slots	Esperava-se que o slot departureDate fosse obtido, mas era cabinType.	Ignorar outros turnos na conversa
Incompatibilidade do valor do slot	Incompatibilidade entre o valor esperado e o real do slot.	Continuar com outros turnos nas conversas
Back-to-back falta o prompt do agente	Esperava que o bot retornasse uma solicitação do agente neste turno, mas ela não foi recebida.	Ignorar outros turnos na conversa
Incompatibilidade de transcrição	A transcrição esperada não correspondeu à transcrição real.	Continuar com outros turnos nas conversas
Slot opcional não elicitado	Esperava que fosse elicitar o slot cabinType no próximo turno, mas a intenção atual foi atendida antes disso.	Ignorar outros turnos na conversa
Slot não reconhecido	O slot departureDate esperado não foi reconhecido neste turno.	Ignorar outros turnos na conversa
Solicitação consecutiva adicional do agente	Esperava o turno de um usuário, mas era um prompt do agente	Ignorar outros turnos na conversa

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Visualizar resultados do teste

Streaming de conversas em um bot do Lex V2