Teste uma política de raciocínio automatizado - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Teste uma política de raciocínio automatizado

Você testa uma política enviando declarações em linguagem natural ou QnAs para validação e, em seguida, inspeciona o feedback das verificações de raciocínio automatizado para garantir que ela esteja traduzindo o texto de entrada usando as variáveis certas e que as regras com as quais está validando estejam corretas.

Você pode criar testes de duas maneiras: definindo manualmente pares question-and-answer (QnA) ou gerando cenários de teste automaticamente. QnAs são perguntas de usuário específicas com respostas de modelo correspondentes que você escreve para testar casos de uso específicos, enquanto cenários de teste são situações lógicas geradas automaticamente a partir de suas regras de política que podem ou não ser realistas no contexto do seu aplicativo.

nota

Vídeo tutorial: Para ver um step-by-step passo a passo sobre como testar uma política de raciocínio automatizado, assista ao seguinte tutorial:

Tutorial de demonstração 2 - Testando a política de raciocínio automatizado

Os testes devem imitar as perguntas que os usuários do seu aplicativo fariam e as respostas que eles poderiam obter de um modelo básico. O Raciocínio Automatizado avalia a precisão da prontidão e da resposta com relação às regras da sua política de Raciocínio Automatizado. O raciocínio automatizado realiza essa validação nas seguintes etapas:

dica

Prática recomendada: crie testes que cubram cenários válidos e inválidos. Por exemplo, se sua política declarar “Os funcionários precisam de 1 ano de serviço para obter licença parental”, crie testes para respostas que indiquem corretamente essa regra e testes para respostas que indiquem incorretamente um requisito diferente.

  1. Usa a pergunta e a resposta do seu teste junto com as variáveis da sua política e suas descrições para traduzir as entradas da linguagem natural em lógica formal.

  2. Valida a lógica traduzida em relação à política usando técnicas matemáticas sólidas.

nota

O raciocínio automatizado traduz a linguagem natural em lógica usando técnicas de IA que não garantem uma precisão perfeita. No entanto, bons testes ajudarão a detectar e corrigir possíveis imprecisões em suas políticas de raciocínio automatizado.

Crie um teste manualmente no console

  1. Acesse a política de raciocínio automatizado que você deseja testar (por exemplo, MyHrPolicy).

  2. Escolha Exibir testes e, em seguida, selecione Adicionar.

  3. Na caixa de diálogo Adicionar testes, faça o seguinte:

    1. Inclua uma entrada (opcional) e uma saída. Eles representam a pergunta que um usuário pode fazer e a resposta que seu modelo básico pode fornecer. Juntos, formam um par de QnA que testa como sua política valida as interações reais do usuário.

    2. Escolha o resultado que você espera do teste (como Válido ou Inválido).

    3. Selecione um limite de confiança, que é o nível mínimo de confiança para validação lógica.

  4. Selecione Salvar para criar o teste.

nota

Ao criar um teste, o limite de confiança é opcional.

  • As verificações automatizadas de raciocínio usam vários modelos de linguagem grandes (LLMs) para traduzir testes de linguagem natural em descobertas. Ele retorna apenas descobertas “confiáveis” que são apoiadas por uma porcentagem significativa das traduções do LLM. O limite de confiança define a porcentagem mínima de suporte necessária para que uma tradução se torne uma descoberta com um resultado válido.

  • Se houver uma ou mais descobertas traduzidas que não sejam suportadas por uma porcentagem suficiente de traduções do LLM, as verificações de raciocínio automatizado revelarão uma descoberta adicional “TRANSLATION_AMBIGUOUS”. Essa descoberta conterá informações para destacar as diferenças entre as traduções discordantes do LLM.

Gere testes automaticamente no console

  1. Acesse a política de raciocínio automatizado que você deseja testar (por exemplo, MyHrPolicy).

  2. Escolha Exibir testes e selecione Gerar.

  3. Na caixa de diálogo Gerar cenários, revise o cenário gerado e as regras relacionadas. Depois, siga um destes procedimentos:

    • Se você acha que o cenário pode acontecer (também conhecido como cenário satisfatório), selecione o polegar para cima (sim).

    • Caso contrário, selecione os polegares para baixo (não). Você também pode fornecer uma anotação para explicar por que acha que o cenário não é possível. Isso é semelhante a deixar um comentário em um documento.

    • Se você quiser testar um cenário diferente, escolha Regenerar cenário.

    dica

    Se você quiser inspecionar a versão lógica formal do cenário, habilite Mostrar SMT-LIB.

  4. Selecione Salvar e fechar para salvar o teste ou Salvar e adicionar outro teste.

  5. Se você forneceu anotações para qualquer um dos testes, escolha Aplicar anotações. O raciocínio automatizado fará alterações em sua política com base em seus comentários.

  6. Na tela Revisar alterações na política, revise as alterações nas regras, variáveis e tipos de variáveis da sua política. Em seguida, selecione Aceitar alterações.

Execute testes no console

  1. Acesse a política de raciocínio automatizado que você deseja validar (por exemplo, MyHrPolicy).

  2. Escolha Exibir testes.

  3. Execute um destes procedimentos:

    • Para executar todos os testes da sua política, escolha Validar todos os testes.

    • Para executar testes individualmente, selecione o botão Ação ao lado do teste que você deseja executar e escolha Validar.

Crie um teste manualmente usando a API

Você pode usar a operação da CreateAutomatedReasoningPolicyTestCase API para criar programaticamente um teste para sua política de raciocínio automatizado.

Parâmetros de solicitação

Os parâmetros a seguir são obrigatórios ou opcionais ao criar um teste:

policyArn(obrigatório)

O Amazon Resource Name (ARN) da política de raciocínio automatizado para a qual criar o teste.

guardContent(obrigatório)

O conteúdo de saída validado pela política de raciocínio automatizado. Isso representa a resposta do modelo básico que será verificada quanto à precisão.

query (opcional)

A consulta ou solicitação de entrada que gerou o conteúdo. Isso fornece contexto para a validação.

expectedAggregatedFindingsResult (opcional)

O resultado esperado da validação para o teste (por exemplo, VALID ouINVALID).

confidenceThreshold (opcional)

O nível mínimo de confiança para validação lógica. O conteúdo que atinge o limite é considerado uma descoberta de alta confiança que pode ser validada.

Exemplo

O exemplo a seguir mostra como criar um teste para uma política de raciocínio automatizado usando o AWS CLI:

aws bedrock create-automated-reasoning-policy-test-case \ --policy-arn "arn:aws:bedrock:us-west-2:123456789012:automated-reasoning-policy/k8m9n2p4q7r5" \ --query-content "Can I take a leave of absence if I'm a part-time employee?" \ --guard-content "No, only full-time employees are eligible for leave of absence." \ --expected-aggregated-findings-result "VALID" \ --confidence-threshold 0.8

Exemplo de resposta:

{ "testCaseId": "test-12345abcde", "policyArn": "arn:aws:bedrock:us-west-2:123456789012:automated-reasoning-policy/k8m9n2p4q7r5" }

Gere testes automaticamente usando a API

Você pode usar a operação da GenerateAutomatedReasoningPolicyTestScenarios API para gerar automaticamente cenários de teste com base nas regras da sua política.

Parâmetros de solicitação

Os parâmetros a seguir são obrigatórios ou opcionais ao gerar cenários de teste:

policyArn(obrigatório)

O Amazon Resource Name (ARN) da política de raciocínio automatizado para gerar cenários de teste.

maxResults (opcional)

O número máximo de cenários de teste a serem gerados.

Exemplo

O exemplo a seguir mostra como gerar cenários de teste para uma política de raciocínio automatizado usando o AWS CLI:

aws bedrock generate-automated-reasoning-policy-test-scenarios \ --policy-arn "arn:aws:bedrock:us-west-2:123456789012:automated-reasoning-policy/k8m9n2p4q7r5" \ --max-results 3

A resposta incluirá cenários de teste gerados que você poderá revisar e usar para criar testes.

Execute testes usando a API

Você pode usar a operação da ValidateAutomatedReasoningPolicyTest API para executar um teste para sua política de raciocínio automatizado e a GetAutomatedReasoningPolicyTestResult operação para recuperar os resultados.

Parâmetros de solicitação

Os seguintes parâmetros são necessários ao executar um teste:

policyArn(obrigatório)

O nome de recurso da Amazon (ARN) da política de raciocínio automatizado.

testCaseId(obrigatório)

O identificador exclusivo do teste a ser executado.

Obtenha os resultados do teste

Para recuperar os resultados de um teste, use os seguintes parâmetros:

policyArn(obrigatório)

O nome de recurso da Amazon (ARN) da política de raciocínio automatizado.

buildWorkflowId(obrigatório)

O identificador do fluxo de trabalho de construção. O fluxo de trabalho de compilação deve exibir um COMPLETED status para obter resultados.

testCaseId(obrigatório)

O identificador exclusivo do teste para o qual recuperar os resultados.

Exemplo

O exemplo a seguir mostra como executar um teste e recuperar os resultados usando o AWS CLI:

# Run the test aws bedrock validate-automated-reasoning-policy-test \ --policy-arn "arn:aws:bedrock:us-west-2:123456789012:automated-reasoning-policy/k8m9n2p4q7r5" \ --test-case-id "test-12345abcde" # Get the test results aws bedrock get-automated-reasoning-policy-test-result \ --policy-arn "arn:aws:bedrock:us-west-2:123456789012:automated-reasoning-policy/k8m9n2p4q7r5" \ --build-workflow-id "workflow-67890fghij" \ --test-case-id "test-12345abcde"

A resposta incluirá resultados de testes detalhados com resultados de validação e status de execução.