Validar os resultados do teste de política de raciocínio automatizado - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Validar os resultados do teste de política de raciocínio automatizado

Quando um teste termina, você recebe um conjunto de resultados de validação para entender o desempenho da política de raciocínio automatizado.

Um teste inclui as seguintes informações:

  • Consulta e conteúdo: uma pergunta que um usuário pode fazer à sua aplicação de IA generativa e uma possível resposta. Você os define se criar o teste manualmente. O raciocínio automatizado os define se você tiver gerado cenários de teste.

  • Limite de confiança: o nível mínimo de confiança para validação lógica que você definiu para o teste. Esse limite determina como o raciocínio automatizado lida com a incerteza ao converter linguagem natural em lógica formal. O conteúdo que atinge ou ultrapassa o limite é considerado uma descoberta de alta confiança que pode ser validada com um resultado definitivo (VÁLIDO ou INVÁLIDO). O conteúdo que está abaixo do limite é uma descoberta de baixa confiança marcada como TRANSLATION_AMBIGUOUS, indicando que o sistema detectou ambiguidade e optou por não fornecer um resultado de validação possivelmente incorreto.

  • Resultados da validação:

    • Resultado esperado: o resultado que você espera da execução do teste.

    • Resultado real: o resultado da execução do teste.

    • Resultado da execução: indica se o teste foi aprovado. Se os resultados esperados e reais se alinharem, o teste foi aprovado. Do contrário, o teste foi reprovado.

  • Descobertas: o resultado de um teste de política de raciocínio automatizado é um conjunto de descobertas. As descobertas representam afirmações factuais contidas na pergunta e na resposta do teste. Use-os para ajudar a entender por que um teste foi aprovado ou reprovado.

    • Tipo: as interpretações podem incluir uma combinação de afirmações e premissas.

      • Premissas: fornecem contexto, suposições ou condições que afetam a forma como uma afirmação deve ser avaliada. Em question-and-answer formatos, a premissa geralmente é a pergunta em si. As respostas também podem conter premissas que estabelecem restrições ou condições. Por exemplo, na pergunta “Quais números são divisíveis por 2?” e na resposta “Números pares”, a premissa é “números divisíveis por 2”. Na afirmação: “Quando o semáforo fica verde, você deve seguir em frente”, a premissa é “o semáforo fica verde”.

      • Afirmações: declarações factuais que o raciocínio automatizado avalia quanto à precisão. Em um question-and-answer formato, a afirmação geralmente é a resposta. Em uma declaração independente, a afirmação é o fato que está sendo asseverado. Por exemplo, na pergunta “Quais números são divisíveis por 2?” e na resposta “Números pares”, a afirmação é “números pares”.

    • Resultado: indica a validade das afirmações de uma descoberta. Para obter mais informações, consulte Resultados da validação do teste.

    • Confiança: a pontuação de confiança (de 0,0 a 1,0) que o raciocínio automatizado tem na conversão de linguagem natural em lógica formal, representando o nível de certeza do sistema para interpretar corretamente o texto de entrada. Pontuações mais altas indicam maior certeza na interpretação. Por exemplo, quando uma interpretação tem uma pontuação de confiança “1,0", isso indica que há máxima certeza de que a linguagem natural foi convertida com precisão em lógica formal. Pontuações de confiança mais baixas sugerem que o sistema tem alguma incerteza quanto à interpretação e que você deve analisá-la.

    • Atribuições: atribuições de variáveis da política que provam que a descoberta é válida ou não. As intepretações têm declarações lógicas que mostram como a linguagem natural foi convertida em lógica formal. Elas podem ser mais complexas quando há uma lógica aninhada. Por exemplo, .hasDogHistoryOfAggression is false

    • Regras: a lógica extraída da política que apoia a descoberta. Um teste fornece regras relevantes suficientes da política para ajudar a entender o resultado da descoberta.

Resultados da validação do teste

A lista a seguir detalha os possíveis resultados de validação de um teste de política de raciocínio automatizado:

VALID

As premissas e afirmações na resposta do modelo são logicamente consistentes com suas regras de política, podem ser comprovadas matematicamente e não podem ser refutadas usando nenhuma das regras da política. A resposta segue corretamente todas as restrições lógicas aplicáveis e o raciocínio desde as premissas até as conclusões é sólido.

Exemplo: Se sua apólice contiver uma única regra declarando “Funcionários com mais de 1 ano de serviço recebem licença parental” e o modelo responder “Você se qualifica para a licença parental porque trabalhou aqui por 18 meses”, isso seria VÁLIDO porque 18 meses excedem o requisito de 1 ano.

nota

VALIDgarante a validade somente de partes da entrada capturada por meio de variáveis de política nas premissas e afirmações da VALID descoberta. Por exemplo, a declaração “Posso enviar minha tarefa de casa com atraso porque tenho um atestado médico falso” pode ser considerada válida porque a política não tem uma variável para capturar se o atestado médico é falso ou não. Em alguns casos, as verificações automatizadas de raciocínio podem apontar essas declarações como premissas ou afirmações não traduzidas na descoberta.

INVALID

As afirmações na resposta do modelo contradizem ou violam as regras da política. A resposta contém declarações que é possível provar matematicamente como incorretas com base nas restrições lógicas formais da política.

Exemplo: se sua política declarar “Funcionários com mais de um ano de serviço recebem licença parental” e o modelo responder “Você se qualifica para a licença parental mesmo tendo trabalhado aqui por apenas três meses”, isso seria INVÁLIDO porque três meses não atendem ao requisito de um ano.

SATISFIABLE

As afirmações são consistentes com pelo menos uma interpretação possível das regras da política, mas podem não abordar todas as regras relevantes. Isso significa que a resposta não contradiz a política, mas pode não abordar totalmente todas as restrições aplicáveis.

Exemplo: se sua política declarar “Os funcionários precisam de mais de um ano de serviço para obter licença parental E devem enviar o formulário HR-101” e o modelo responder “Você se qualifica para a licença parental porque trabalhou aqui por dois anos”, isso seria SATISFATÓRIO porque a resposta aborda corretamente a exigência de serviço, mas não menciona a exigência do formulário (sem a contradizer).

IMPOSSIBLE

O raciocínio automatizado não consegue fazer uma declaração quanto às afirmações. Isso pode acontecer se as premissas estiverem em conflito umas com as outras ou se houver um conflito dentro da própria política de raciocínio automatizado.

Exemplo: se sua política contém regras contraditórias, como “Todos os funcionários têm dias de férias” e “Nenhum funcionário tem dias de férias”, ou se a pergunta do teste contém premissas impossíveis, como “Sou funcionário em tempo integral e também em tempo parcial, para quais benefícios estou qualificado?” , o resultado seria IMPOSSÍVEL porque a base lógica é falha.

TRANSLATION_AMBIGUOUS

Se fosse detectada uma ambiguidade na interpretação, isso significa que não seria correto prosseguir com a verificação de validade. Perguntas adicionais de contexto ou de acompanhamento podem ser necessárias para que a interpretação tenha êxito.

Exemplo: se sua pergunta de teste fosse “Eles podem tirar licença?” sem especificar a quem “eles” se refere, ou se a resposta do modelo usar pronomes ambíguos como “Isso depende da situação deles” sem referências claras, o resultado seria TRANSLATION_AMBIGUOUS porque o sistema não consegue converter linguagem vaga em lógica formal de maneira confiável.

TOO_COMPLEX

A entrada contém muitas informações para o raciocínio automatizado processar dentro dos respectivos limites de latência.

Exemplo: se seu teste incluir um modelo de resposta extremamente longo com centenas de afirmações interconectadas sobre benefícios para os funcionários, políticas de férias, seguro de saúde, planos de aposentadoria e avaliações de desempenho, tudo em uma única resposta, o resultado pode ser TOO_COMPLEX porque a análise lógica ultrapassaria os limites de tempo de processamento.

NO_TRANSLATIONS

Identifica que parte ou todo o prompt de entrada não foi convertido em lógica. Isso pode acontecer se a entrada não for apropriada para a política de raciocínio automatizado ou se a política não tiver variáveis para modelar a entrada pertinente. Se o raciocínio automatizado não conseguir interpretar nada, você obterá uma única descoberta NO_TRANSLATIONS. Você também pode ver NO_TRANSLATIONS (com outras descobertas) se alguma parte da validação não for interpretada.

Exemplo: se sua política de RH foi projetada para validar os benefícios dos funcionários, mas sua pergunta de teste é “Como está o clima hoje?” ou “Como cozinho macarrão?”, o resultado seria NO_TRANSLATIONS porque o conteúdo não está completamente relacionado ao domínio e às variáveis da política.