Pruebe una política de razonamiento automatizado - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Pruebe una política de razonamiento automatizado

Usted prueba una política enviando declaraciones en lenguaje natural o QnAs para su validación y, a continuación, inspecciona los comentarios de Automated Reasoning para comprobar que está traduciendo el texto de entrada utilizando las variables correctas y que las reglas con las que se valida son correctas.

Puede crear pruebas de dos maneras: definiendo pares manualmente question-and-answer (QnA) o generando escenarios de prueba automáticamente. QnAs son preguntas específicas de los usuarios con las correspondientes respuestas modelo que usted escribe para probar casos de uso específicos, mientras que los escenarios de prueba son situaciones lógicas generadas automáticamente a partir de las reglas de su política que pueden o no ser realistas en el contexto de su aplicación.

nota

Vídeo tutorial: Para ver un step-by-step tutorial sobre cómo probar una política de razonamiento automatizado, consulte el siguiente tutorial:

Demostración del tutorial 2: Probar la política de razonamiento automatizado

Las pruebas deben imitar las preguntas que harían los usuarios de la aplicación y las respuestas que podrían obtener de un modelo básico. El razonamiento automatizado evalúa la rapidez y la precisión de las respuestas con respecto a las reglas de tu política de razonamiento automatizado. El razonamiento automatizado realiza esta validación en los siguientes pasos:

sugerencia

Práctica recomendada: cree pruebas que cubran escenarios válidos y no válidos. Por ejemplo, si tu política establece que «los empleados necesitan 1 año de servicio para obtener el permiso parental», crea pruebas para las respuestas que indiquen correctamente esta regla y para las respuestas que indiquen incorrectamente un requisito diferente.

  1. Utiliza las preguntas y respuestas del examen junto con las variables de la póliza y sus descripciones para traducir las entradas del lenguaje natural a una lógica formal.

  2. Valida la lógica traducida comparándola con la política mediante el uso de técnicas matemáticas sólidas.

nota

El razonamiento automatizado traduce el lenguaje natural en lógica mediante técnicas de IA que no pueden garantizar una precisión perfecta. Sin embargo, unas buenas pruebas ayudarán a detectar y corregir posibles imprecisiones en sus políticas de razonamiento automatizado.

Cree una prueba manualmente en la consola

  1. Ve a la política de razonamiento automatizado que quieras probar (por ejemplo, MyHrPolicy).

  2. Elige Ver pruebas y, a continuación, selecciona Agregar.

  3. En el cuadro de diálogo Añadir pruebas, haga lo siguiente:

    1. Incluya una entrada (opcional) y una salida. Representan la pregunta que podría hacerse un usuario y la respuesta que podría proporcionar su modelo básico, y juntas forman un par QnA que pone a prueba la forma en que su política valida las interacciones reales de los usuarios.

    2. Elija el resultado que espera de la prueba (por ejemplo, Válido o No válido).

    3. Seleccione un umbral de confianza, que es el nivel de confianza mínimo para la validación lógica.

  4. Seleccione Guardar para crear la prueba.

nota

Al crear una prueba, el umbral de confianza es opcional.

  • Las comprobaciones de razonamiento automatizadas utilizan varios modelos lingüísticos de gran tamaño (LLMs) para convertir las pruebas de lenguaje natural en resultados. Solo arroja resultados «fiables» que están respaldados por un porcentaje significativo de las traducciones de máster. El umbral de confianza define el porcentaje mínimo de apoyo necesario para que una traducción se convierta en una conclusión con un resultado válido.

  • Si hay uno o más resultados traducidos que no están respaldados por un porcentaje suficiente de traducciones de LLM, las comprobaciones de razonamiento automatizadas arrojarán un resultado adicional de «TRANSLATION_AMBIGUOUS». Este resultado contendrá información que resaltará las diferencias entre las traducciones de LLM que no estén de acuerdo.

Genera pruebas automáticamente en la consola

  1. Ve a la política de razonamiento automatizado que quieras probar (por ejemplo, MyHrPolicy).

  2. Elige Ver pruebas y, a continuación, selecciona Generar.

  3. En el cuadro de diálogo Generar escenarios, revise el escenario generado y las reglas relacionadas. A continuación, realice alguna de las operaciones siguientes:

    • Si cree que el escenario podría ocurrir (también conocido como escenario satisfactorio), dé el visto bueno (sí).

    • Si no, selecciona el pulgar hacia abajo (no). También puedes incluir una anotación para explicar por qué crees que el escenario no es posible. Esto es similar a dejar un comentario en un documento.

    • Si desea probar un escenario diferente, elija Regenerar el escenario.

    sugerencia

    Si desea inspeccionar la versión lógica formal del escenario, habilite Mostrar SMT-LIB.

  4. Seleccione Guardar y cerrar para guardar la prueba o Guardar y añadir otra prueba.

  5. Si ha proporcionado anotaciones a alguna de las pruebas, elija Aplicar anotaciones. Automated Reasoning realizará cambios en tu política en función de tus comentarios.

  6. En la pantalla Revisar los cambios de la política, revisa los cambios en las reglas, las variables y los tipos de variables de tu política. A continuación, selecciona Aceptar cambios.

Ejecuta las pruebas en la consola

  1. Vaya a la política de razonamiento automatizado que desee validar (por ejemplo, MyHrPolicy).

  2. Selecciona Ver pruebas.

  3. Realice una de las siguientes acciones:

    • Para ejecutar todas las pruebas de su política, elija Validar todas las pruebas.

    • Para ejecutar las pruebas de forma individual, seleccione el botón Acción situado junto a la prueba que desee ejecutar y elija Validar.

Crea una prueba manualmente mediante la API

Puedes usar la operación de la CreateAutomatedReasoningPolicyTestCase API para crear una prueba para tu política de razonamiento automatizado mediante programación.

Parámetros de solicitud

Los siguientes parámetros son obligatorios u opcionales al crear una prueba:

policyArn (obligatorio)

El nombre del recurso de Amazon (ARN) de la política de razonamiento automatizado para la que se va a crear la prueba.

guardContent (obligatorio)

El contenido de salida que está validado por la política de razonamiento automatizado. Esto representa la respuesta del modelo básico cuya precisión se comprobará.

query (opcional)

La consulta o solicitud de entrada que generó el contenido. Esto proporciona el contexto para la validación.

expectedAggregatedFindingsResult (opcional)

El resultado de validación esperado para la prueba (por ejemplo, VALID oINVALID).

confidenceThreshold (opcional)

El nivel de confianza mínimo para la validación lógica. El contenido que alcanza el umbral se considera un hallazgo de alta confianza que puede validarse.

Ejemplo

El siguiente ejemplo muestra cómo crear una prueba para una política de razonamiento automatizado mediante: AWS CLI

aws bedrock create-automated-reasoning-policy-test-case \ --policy-arn "arn:aws:bedrock:us-west-2:123456789012:automated-reasoning-policy/k8m9n2p4q7r5" \ --query-content "Can I take a leave of absence if I'm a part-time employee?" \ --guard-content "No, only full-time employees are eligible for leave of absence." \ --expected-aggregated-findings-result "VALID" \ --confidence-threshold 0.8

Ejemplo de respuesta:

{ "testCaseId": "test-12345abcde", "policyArn": "arn:aws:bedrock:us-west-2:123456789012:automated-reasoning-policy/k8m9n2p4q7r5" }

Genere pruebas automáticamente mediante la API

Puedes usar la operación de la GenerateAutomatedReasoningPolicyTestScenarios API para generar automáticamente escenarios de prueba en función de las reglas de tu política.

Parámetros de solicitud

Los siguientes parámetros son obligatorios u opcionales al generar escenarios de prueba:

policyArn (obligatorio)

El nombre del recurso de Amazon (ARN) de la política de razonamiento automatizado para generar escenarios de prueba.

maxResults (opcional)

El número máximo de escenarios de prueba que se van a generar.

Ejemplo

El siguiente ejemplo muestra cómo generar escenarios de prueba para una política de razonamiento automatizado mediante AWS CLI:

aws bedrock generate-automated-reasoning-policy-test-scenarios \ --policy-arn "arn:aws:bedrock:us-west-2:123456789012:automated-reasoning-policy/k8m9n2p4q7r5" \ --max-results 3

La respuesta incluirá los escenarios de prueba generados que podrá revisar y usar para crear pruebas.

Ejecute las pruebas con la API

Puedes usar la operación de la ValidateAutomatedReasoningPolicyTest API para ejecutar una prueba para tu política de razonamiento automatizado y la GetAutomatedReasoningPolicyTestResult operación para recuperar los resultados.

Parámetros de solicitud

Al ejecutar una prueba, se requieren los siguientes parámetros:

policyArn (obligatorio)

El nombre del recurso de Amazon (ARN) de la política de razonamiento automatizado.

testCaseId (obligatorio)

El identificador único de la prueba que se va a ejecutar.

Obtenga los resultados de la prueba

Para recuperar los resultados de una prueba, utilice los siguientes parámetros:

policyArn (obligatorio)

El nombre del recurso de Amazon (ARN) de la política de razonamiento automatizado.

buildWorkflowId (obligatorio)

El identificador del flujo de trabajo de compilación. El flujo de trabajo de compilación debe mostrar un COMPLETED estado para obtener resultados.

testCaseId (obligatorio)

El identificador único de la prueba para la que se van a recuperar los resultados.

Ejemplo

El siguiente ejemplo muestra cómo ejecutar una prueba y recuperar los resultados mediante AWS CLI:

# Run the test aws bedrock validate-automated-reasoning-policy-test \ --policy-arn "arn:aws:bedrock:us-west-2:123456789012:automated-reasoning-policy/k8m9n2p4q7r5" \ --test-case-id "test-12345abcde" # Get the test results aws bedrock get-automated-reasoning-policy-test-result \ --policy-arn "arn:aws:bedrock:us-west-2:123456789012:automated-reasoning-policy/k8m9n2p4q7r5" \ --build-workflow-id "workflow-67890fghij" \ --test-case-id "test-12345abcde"

La respuesta incluirá los resultados detallados de las pruebas con los resultados de la validación y el estado de la ejecución.