Création d’un test manuellement dans la console Génération automatique des tests dans la console Exécution des tests dans la console Création d’un test manuellement à l’aide de l’API Génération automatique des tests à l’aide de l’API Exécution de tests à l’aide de l’API

Test d’une politique de raisonnement automatisé

Vous testez une politique en envoyant des déclarations en langage naturel ou à des QnAs fins de validation, puis vous inspectez Automated Reasoning qui vérifie les commentaires pour vous assurer qu'elle traduit le texte saisi en utilisant les bonnes variables et que les règles par rapport auxquelles elle valide sont correctes.

Vous pouvez créer des tests de deux manières : en définissant manuellement des paires question-and-answer (QnA) ou en générant automatiquement des scénarios de test. QnAs sont des questions spécifiques aux utilisateurs avec des réponses de modèles correspondantes que vous rédigez pour tester des cas d'utilisation particuliers, tandis que les scénarios de test sont des situations logiques générées automatiquement à partir de vos règles de politique qui peuvent être réalistes ou non dans le contexte de votre application.

Note

Tutoriel vidéo : Pour step-by-step découvrir comment tester une politique de raisonnement automatisé, regardez le didacticiel suivant :

Didacticiel de démonstration 2 : Tester la politique de raisonnement automatisé

Les tests doivent imiter les questions que poseraient les utilisateurs de votre application et les réponses qu’ils pourraient obtenir à partir d’un modèle de fondation. Le raisonnement automatisé évalue l’invite et la précision des réponses par rapport aux règles de votre politique de raisonnement automatisé. Le raisonnement automatisé effectue cette validation selon les étapes suivantes :

Astuce

Bonne pratique : créez des tests qui couvrent à la fois les scénarios valides et non valides. Par exemple, si votre politique stipule que « les employés ont besoin d’un an de service pour le congé parental », créez des tests pour les réponses qui énoncent correctement cette règle et des tests pour les réponses qui énoncent incorrectement une exigence différente.

Utilise la question et la réponse de votre test ainsi que les variables de votre politique et leurs descriptions pour traduire les entrées en langage naturel en logique formelle.
Valide la logique traduite par rapport à la politique en utilisant de bonnes techniques mathématiques.

Note

Le raisonnement automatisé traduit le langage naturel en logique à l’aide de techniques d’intelligence artificielle qui ne peuvent garantir une précision parfaite. Cependant, de bons tests aideront à détecter et à corriger d’éventuelles inexactitudes dans vos politiques de raisonnement automatisé.

Création d’un test manuellement dans la console

Accédez à la politique de raisonnement automatisé que vous souhaitez tester (par exemple, MyHrPolicy).
Choisissez Afficher les tests, puis sélectionnez Ajouter.
Dans la boîte de dialogue Ajouter des tests, procédez comme suit :
1. Incluez une entrée (facultative) et une sortie. Ils représentent la question qu’un utilisateur pourrait poser et la réponse que votre modèle de fondation pourrait apporter, formant ensemble une paire de questions-réponses qui teste la manière dont votre politique valide les interactions réelles avec les utilisateurs.
2. Choisissez le résultat que vous attendez du test (par exemple Valide ou Invalide).
3. Sélectionnez un seuil de confiance, qui est le niveau de confiance minimum pour la validation logique.
Sélectionnez Enregistrer pour créer le test.

Note

Lors de la création d’un test, le seuil de confiance est facultatif.

Les contrôles de raisonnement automatisés utilisent plusieurs grands modèles linguistiques (LLMs) pour traduire les tests de langage naturel en résultats. Il ne renvoie que des résultats « fiables » qui sont étayés par un pourcentage significatif des traductions du LLM. Le seuil de confiance définit le pourcentage minimum de support nécessaire pour qu’une traduction devienne un résultat valide.
Si un ou plusieurs résultats traduits ne sont pas étayés par un pourcentage suffisant de traductions du LLM, les vérifications du raisonnement automatisé feront apparaître un résultat « TRANSLATION_AMBIGUOUS » supplémentaire. Ce résultat contiendra des informations pour mettre en évidence les différences entre les traductions du LLM en désaccord.

Génération automatique des tests dans la console

Accédez à la politique de raisonnement automatisé que vous souhaitez tester (par exemple, MyHrPolicy).
Choisissez Afficher les tests, puis sélectionnez Générer.
Dans la boîte de dialogue Générer des scénarios, passez en revue le scénario généré et les règles associées. Ensuite, effectuez l’une des actions suivantes :
- Si vous pensez que le scénario pourrait se produire (également appelé scénario satisfaisant), sélectionnez le pouce levé (oui).
- Si ce n’est pas le cas, sélectionnez le pouce vers le bas (non). Vous pouvez également fournir une annotation pour expliquer pourquoi vous pensez que le scénario n’est pas possible. Cela revient à laisser un commentaire dans un document.
- Si vous souhaitez tester un autre scénario, choisissez Régénérer le scénario.
Astuce
Si vous souhaitez inspecter la version logique officielle du scénario, activez Afficher SMT-LIB.
Sélectionnez Enregistrer et fermer pour enregistrer le test ou Enregistrer et ajouter un autre test.
Si vous avez fourni des annotations à l’un des tests, choisissez Appliquer les annotations. Le raisonnement automatisé modifiera votre politique en fonction de vos commentaires.
Sur l’écran Examiner les modifications apportées à la politique, passez en revue les modifications apportées aux règles, aux variables et aux types de variables de votre politique. Sélectionnez ensuite Accepter les modifications.

Exécution des tests dans la console

Accédez à la politique de raisonnement automatisé que vous souhaitez valider (par exemple, MyHrPolicy).
Choisissez Afficher les tests.
Effectuez l’une des actions suivantes :
- Pour exécuter tous les tests de votre politique, choisissez Valider tous les tests.
- Pour exécuter des tests individuellement, sélectionnez le bouton Action à côté du test que vous souhaitez exécuter et choisissez Valider.

Création d’un test manuellement à l’aide de l’API

Vous pouvez utiliser l’opération d’API CreateAutomatedReasoningPolicyTestCase afin de créer un test pour votre politique de raisonnement automatisé par programmation.

Paramètres de demande

Les paramètres suivants sont obligatoires ou facultatifs lors de la création d’un test :

policyArn (obligatoire): L’Amazon Resource Name (ARN) de la politique de raisonnement automatisé pour laquelle vous souhaitez créer le test.
queryContent (facultatif): La requête ou l'invite d'entrée qui a généré le contenu, telle que la question de l'utilisateur. Cela fournit un contexte pour la validation.
guardContent (obligatoire): Le contenu de sortie validé par la politique de raisonnement automatisé. Cela représente la réponse du modèle de fondation dont l’exactitude sera vérifiée.
expectedAggregatedFindingsResult (facultatif): Le résultat de validation attendu pour le test (par exemple, VALID ou INVALID). Le résultat réel du test est sélectionné en triant les résultats par ordre d'importance et en sélectionnant le pire résultat. L'ordre de tri est le suivant : ambigu, impossible, non valide, satisfaisant et valide. Par exemple, un test qui aboutit à deux résultats valides et à un résultat impossible aura pour résultat agrégé le résultat « impossible ».
confidenceThreshold (facultatif): Le niveau de confiance minimal pour la validation logique. Le contenu qui atteint le seuil est considéré comme un résultat à haut niveau de confiance qui peut être validé.

Exemple

L’exemple suivant montre comment créer un test pour une politique de raisonnement automatisé au moyen de la AWS CLI :


aws bedrock create-automated-reasoning-policy-test-case \
  --policy-arn "arn:aws:bedrock:us-east-1:111122223333:automated-reasoning-policy/lnq5hhz70wgk" \
  --query-content "Can I take a leave of absence if I'm a part-time employee?" \
  --guard-content "No, only full-time employees are eligible for leave of absence." \
  --expected-aggregated-findings-result "VALID" \
  --confidence-threshold 0.8

Exemple de réponse :


{
  "testCaseId": "test-12345abcde",
  "policyArn": "arn:aws:bedrock:us-east-1:111122223333:automated-reasoning-policy/lnq5hhz70wgk"
}

Génération automatique des tests à l’aide de l’API

Vous pouvez utiliser l'opération GetAutomatedReasoningPolicyNextScenario API pour récupérer les prochains scénarios de test générés en fonction des règles de votre politique.

Paramètres de demande

Les paramètres suivants sont obligatoires ou facultatifs lors de la génération des scénarios de test :

policyArn (obligatoire): L’Amazon Resource Name (ARN) de la politique de raisonnement automatisé pour laquelle vous souhaitez générer des scénarios de test.
buildWorkdflowId (obligatoire): Identifiant unique du flux de travail de génération pour les scénarios générés. Vous pouvez récupérer le dernier flux de travail de génération à l'aide de l'action ListAutomatedReasoningPolicyBuildWorkflows API.

Exemple

L'exemple suivant montre comment récupérer les prochains scénarios de test générés pour une politique de raisonnement automatisé à l'aide de AWS CLI :


aws bedrock get-automated-reasoning-policy-next-scenario \
  --policy-arn "arn:aws:bedrock:us-east-1:111122223333:automated-reasoning-policy/lnq5hhz70wgk" \
  --build-worflow-id d40fa7fc-351e-47d8-a338-53e4b3b1c690

La réponse inclura des scénarios de test générés que vous pourrez consulter et utiliser pour créer des tests.

Exécution de tests à l’aide de l’API

Vous pouvez utiliser l'opération StartAutomatedReasoningPolicyTestWorkflow API pour exécuter vos tests de politique de raisonnement automatisé et l'GetAutomatedReasoningPolicyTestResultopération pour récupérer les résultats.

Paramètres de demande

Les paramètres suivants sont obligatoires lors de l’exécution d’un test :

policyArn (obligatoire): L’Amazon Resource Name (ARN) de la politique de raisonnement automatisé.
buildWorkdflowId (obligatoire): Identifiant unique du flux de travail de génération sur lequel vous souhaitez exécuter les tests. Vous pouvez récupérer le dernier flux de travail de génération à l'aide de l'action ListAutomatedReasoningPolicyBuildWorkflows API.
testCaseIds (facultatif): La liste des identifiants de test à exécuter. Si ce n'est pas le cas, tous les tests de la politique sont exécutés.

Obtention des résultats du test

Pour récupérer les résultats d'un test, utilisez les paramètres suivants avec l'action GetAutomatedReasoningPolicyTestResult API :

policyArn (obligatoire): L’Amazon Resource Name (ARN) de la politique de raisonnement automatisé.
buildWorkflowId (obligatoire): L’identifiant du flux de travail de génération. Le flux de travail de génération doit afficher un statut COMPLETED pour obtenir des résultats.
testCaseId (obligatoire): L’identifiant unique du test pour lequel extraire les résultats.

Exemple

L’exemple suivant montre comment exécuter un test et extraire les résultats à l’aide de la AWS CLI :


# Run the test
aws bedrock start-automated-reasoning-policy-test-workflow \
  --policy-arn "arn:aws:bedrock:us-east-1:111122223333:automated-reasoning-policy/lnq5hhz70wgk" \
  --build-worflow-id d40fa7fc-351e-47d8-a338-53e4b3b1c690

# Get the test results
aws bedrock get-automated-reasoning-policy-test-result \
  --policy-arn "arn:aws:bedrock:us-east-1:111122223333:automated-reasoning-policy/lnq5hhz70wgk" \
  --build-worflow-id d40fa7fc-351e-47d8-a338-53e4b3b1c690 \ 
  --test-case-id test-12345abcde

La réponse inclura les résultats des tests détaillés avec les résultats de validation et le statut d’exécution.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Création de votre politique de raisonnement automatisé

Validation des résultats des tests de la politique de raisonnement automatisé