Valide os resultados do teste da política de raciocínio automatizado - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Valide os resultados do teste da política de raciocínio automatizado

Quando um teste termina, você recebe um conjunto de resultados de validação para entender o desempenho da sua política de raciocínio automatizado.

Um teste inclui as seguintes informações:

  • Consulta e conteúdo: uma pergunta que um usuário pode fazer ao seu aplicativo GenAI e uma possível resposta. Você os define se criar o teste manualmente. O raciocínio automatizado os define se você gerou cenários de teste.

  • Limite de confiança: o nível mínimo de confiança para validação lógica que você definiu para seu teste. Esse limite determina como o raciocínio automatizado lida com a incerteza ao traduzir a linguagem natural para a lógica formal. O conteúdo que atinge ou excede o limite é considerado uma descoberta de alta confiança que pode ser validada com um resultado definitivo (VÁLIDO ou INVÁLIDO). O conteúdo que está abaixo do limite é uma descoberta de baixa confiança marcada como TRANSLATION_AMBIGUOUS, indicando que o sistema detectou ambigüidade e optou por não fornecer um resultado de validação potencialmente incorreto.

  • Resultados da validação:

    • Resultado esperado: o resultado que você espera da execução do teste.

    • Resultado real: o resultado da execução do teste.

    • Resultado da execução: indica se o teste foi aprovado. Se os resultados esperados e reais se alinharem, o teste foi aprovado. Caso contrário, o teste falhou.

  • Conclusões: O resultado de um teste de política de raciocínio automatizado é um conjunto de descobertas. As descobertas representam afirmações factuais contidas na pergunta e resposta do teste. Use-os para ajudá-lo a entender por que um teste foi aprovado ou reprovado.

    • Tipo: As traduções podem incluir uma combinação de reivindicações e premissas.

      • Premissas: fornece contexto, suposições ou condições que afetam a forma como uma reclamação deve ser avaliada. Em question-and-answer formatos, a premissa geralmente é a pergunta em si. As respostas também podem conter premissas que estabelecem restrições ou condições. Por exemplo, na pergunta “Quais números são divisíveis por 2?” e responda: “Números pares”, a premissa é “números divisíveis por 2". Na declaração: “Quando o semáforo fica verde, você deve ir”, a premissa é “o semáforo está verde”.

      • Alegações: declarações factuais que o raciocínio automatizado avalia quanto à precisão. Em um question-and-answer formato, a afirmação geralmente é a resposta. Em uma declaração independente, a alegação é o fato que está sendo afirmado. Por exemplo, na pergunta “Quais números são divisíveis por 2?” e responda: “Números pares”, a afirmação é “números pares”.

    • Resultado: indica a validade das afirmações de uma descoberta. Para obter mais informações, consulte Resultados da validação do teste.

    • Confiança: A pontuação de confiança (variando de 0,0 a 1,0) que o raciocínio automatizado tem na tradução da linguagem natural para a lógica formal, representando a certeza do sistema de interpretar corretamente o texto de entrada. Pontuações mais altas indicam maior certeza na tradução. Por exemplo, se uma tradução tem uma confiança de “1,0", isso indica a máxima certeza de que a linguagem natural foi convertida com precisão em lógica formal. Pontuações de confiança mais baixas sugerem que o sistema tem alguma incerteza sobre a tradução que você pode querer revisar.

    • Atribuições: atribuições variáveis de sua política que provam que a descoberta é válida ou não. As traduções têm declarações lógicas que mostram como a linguagem natural foi convertida em lógica formal. Eles podem ser mais complexos quando há uma lógica aninhada. Por exemplo, .hasDogHistoryOfAggression is false

    • Regras: a lógica extraída de sua política que apóia a descoberta. Um teste fornece regras relevantes suficientes de sua política para ajudá-lo a entender o resultado da descoberta.

Resultados da validação do teste

A lista a seguir detalha os possíveis resultados de validação de um teste de política de raciocínio automatizado:

VALID

As afirmações na resposta do modelo são logicamente consistentes com suas regras de política e podem ser comprovadas matematicamente como corretas. A resposta segue corretamente todas as restrições lógicas aplicáveis e o raciocínio das premissas às conclusões é sólido.

Exemplo: se sua política declarar “Funcionários com mais de 1 ano de serviço recebem licença parental” e o modelo responder “Você se qualifica para a licença parental porque trabalhou aqui por 18 meses”, isso seria VÁLIDO porque 18 meses excedem o requisito de 1 ano.

INVALID

As afirmações na resposta do modelo contradizem ou violam suas regras de política. A resposta contém declarações que são matematicamente prováveis como incorretas com base nas restrições lógicas formais de sua política.

Exemplo: se sua política declarar “Funcionários com mais de 1 ano de serviço recebem licença parental” e o modelo responder “Você se qualifica para a licença parental mesmo tendo trabalhado aqui por apenas 3 meses”, isso seria INVÁLIDO porque 3 meses não atendem ao requisito de 1 ano.

SATISFIABLE

As reivindicações são consistentes com pelo menos uma interpretação possível de suas regras de apólice, mas podem não abordar todas as regras relevantes. Isso significa que a resposta não contradiz sua política, mas pode não abordar totalmente todas as restrições aplicáveis.

Exemplo: se sua política declarar “Os funcionários precisam de mais de 1 ano de serviço para obter licença parental E devem enviar o formulário HR-101" e o modelo responder “Você se qualifica para a licença parental porque trabalhou aqui por 2 anos”, isso seria SATISFÁVEL porque a resposta aborda corretamente a exigência de serviço, mas não menciona a exigência do formulário (sem contradizê-la).

IMPOSSIBLE

O raciocínio automatizado não pode fazer uma declaração sobre as reivindicações. Isso pode acontecer se as premissas estiverem logicamente incorretas ou se houver um conflito dentro da própria política de raciocínio automatizado.

Exemplo: se sua política contém regras contraditórias, como “Todos os funcionários têm dias de férias” e “Nenhum funcionário tem dias de férias”, ou se a pergunta do teste contém premissas impossíveis, como “Quais benefícios os funcionários obtêm se trabalharem em horários negativos?” , o resultado seria IMPOSSÍVEL porque a base lógica é falha.

TRANSLATION_AMBIGUOUS

Detectar uma ambigüidade na tradução significava que não seria correto continuar com a verificação de validade. Perguntas adicionais de contexto ou de acompanhamento podem ser necessárias para que a tradução seja bem-sucedida.

Exemplo: Se sua pergunta do teste for “Eles podem sair?” sem especificar a quem “eles” se referem, ou se a resposta do modelo usar pronomes ambíguos como “Depende da situação deles” sem referências claras, o resultado seria TRANSLATION_AMBIGUOUS porque o sistema não pode traduzir de forma confiável a linguagem vaga em lógica formal.

TOO_COMPLEX

A entrada contém muitas informações para o Raciocínio Automatizado processar dentro de seus limites de latência.

Exemplo: se seu teste incluir um modelo de resposta extremamente longo com centenas de solicitações interconectadas sobre benefícios para funcionários, apólices de férias, seguro saúde, planos de aposentadoria e avaliações de desempenho, tudo em uma única resposta, o resultado pode ser TOO_COMPLEX porque a análise lógica excederia os limites de tempo de processamento.

NO_TRANSLATIONS

Identifica que parte ou toda a solicitação de entrada não foi traduzida em lógica. Isso pode acontecer se a entrada não for relevante para a política de raciocínio automatizado ou se a política não tiver variáveis para modelar a entrada relevante. Se o raciocínio automatizado não conseguir traduzir nada, você obtém uma única NO_TRANSLATIONS descoberta. Você também pode ver uma NO_TRANSLATIONS (junto com outras descobertas) se alguma parte da validação não for traduzida.

Exemplo: se sua política de RH foi projetada para validar os benefícios dos funcionários, mas sua pergunta de teste pergunta “Como está o tempo hoje?” ou “Como faço para cozinhar macarrão?” , o resultado seria NO_TRANSLATIONS porque o conteúdo não está completamente relacionado ao domínio e às variáveis da sua política.