Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Prueba de una política de razonamiento automatizado
Usted prueba una política enviando declaraciones en lenguaje natural o QnAs para su validación y, a continuación, inspecciona Automated Reasoning comprueba los comentarios para asegurarse de que está traduciendo el texto de entrada utilizando las variables correctas y de que las reglas con las que se valida son correctas.
Puede crear pruebas de dos maneras: definiendo pares manualmente question-and-answer (QnA) o generando escenarios de prueba automáticamente. QnAs son preguntas específicas de los usuarios con las correspondientes respuestas modelo que usted escribe para probar casos de uso específicos, mientras que los escenarios de prueba son situaciones lógicas generadas automáticamente a partir de las reglas de su política que pueden o no ser realistas en el contexto de su aplicación.
nota
Vídeo tutorial: Para ver un step-by-step tutorial sobre cómo probar una política de razonamiento automatizado, consulte el siguiente tutorial:
Demostración del tutorial 2: Prueba de la política de razonamiento automatizado
Las pruebas deben imitar las preguntas que harían los usuarios de la aplicación y las respuestas que podrían obtener de un modelo fundacional. El razonamiento automatizado evalúa la precisión de las peticiones y las respuestas con respecto a las reglas de su política de razonamiento automatizado. El razonamiento automatizado realiza esta validación en los siguientes pasos:
sugerencia
Práctica recomendada: cree pruebas que cubran escenarios válidos y no válidos. Por ejemplo, si su política establece que “los empleados necesitan un año de servicio para obtener una baja por paternidad/maternidad”, cree pruebas para las respuestas que reflejen correctamente esta regla y para las respuestas que reflejen incorrectamente un requisito diferente.
-
Utilice las preguntas y respuestas de la prueba junto con las variables de la política y sus descripciones para traducir las entradas del lenguaje natural a una lógica formal.
-
Valide la lógica traducida comparándola con la política mediante el uso de técnicas matemáticas sólidas.
nota
El razonamiento automatizado traduce el lenguaje natural en lógica mediante técnicas de IA que no pueden garantizar una precisión perfecta. Sin embargo, unas buenas pruebas ayudarán a detectar y corregir posibles imprecisiones en sus políticas de razonamiento automatizado.
Creación manual de una prueba en la consola
-
Ve a la política de razonamiento automatizado que quieras probar (por ejemplo, MyHrPolicy).
-
Elija Ver pruebas y, a continuación, seleccione Agregar.
-
En el cuadro de diálogo Agregar pruebas, haga lo siguiente:
-
Incluya una entrada (opcional) y una salida. Representan la pregunta que podría hacer un usuario y la respuesta que podría proporcionar su modelo fundacional, y juntas forman un par de QnA que pone a prueba la forma en que su política valida las interacciones reales de los usuarios.
-
Elija el resultado que espera de la prueba (por ejemplo, Válidoo No válido).
-
Seleccione un umbral de confianza, que es el nivel de confianza mínimo para la validación lógica.
-
-
Seleccione Guardar para crear la prueba.
nota
Al crear una prueba, el umbral de confianza es opcional.
-
Las comprobaciones de razonamiento automatizadas utilizan varios modelos lingüísticos de gran tamaño (LLMs) para traducir las pruebas de lenguaje natural en resultados. Solo devuelve resultados “fiables” que están respaldados por un porcentaje significativo de las traducciones del LLM. El umbral de confianza define el porcentaje mínimo de respaldo necesario para que una traducción se convierta en una conclusión con un resultado válido.
-
Si hay uno o más resultados traducidos que no están respaldados por un porcentaje suficiente de traducciones del LLM, las verificaciones de razonamiento automatizado arrojarán un resultado adicional de “TRANSLATION_AMBIGUOUS”. Este resultado contendrá información que resaltará las diferencias entre las traducciones del LLM que no coinciden.
Generación automática de pruebas en la consola
-
Ve a la política de razonamiento automatizado que quieras probar (por ejemplo, MyHrPolicy).
-
Elija Ver pruebas y, a continuación, seleccione Generar.
-
En el cuadro de diálogo Generar escenarios, revise el escenario generado y las reglas relacionadas. A continuación, realice alguna de las operaciones siguientes:
-
Si cree que el escenario podría ocurrir (lo que conoce también como escenario probable), seleccione el pulgar arriba (sí).
-
Si no, seleccione el pulgar abajo (no). También puede incluir una anotación para explicar por qué cree que el escenario no es posible. Esto es similar a dejar un comentario en un documento.
-
Si desea probar un escenario diferente, elija Volver a generar escenario.
sugerencia
Si desea inspeccionar la versión lógica formal del escenario, habilite Mostrar SMT-LIB.
-
-
Seleccione Guardar y cerrar para guardar la prueba o Guardar y añadir otra prueba.
-
Si proporcionó anotaciones a alguna de las pruebas, elija Aplicar anotaciones. El razonamiento automatizado realizará cambios en su política en función de sus comentarios.
-
En la pantalla Revisar los cambios de la política, revise los cambios en las reglas, las variables y los tipos de variables de su política. A continuación, seleccione Aceptar cambios.
Ejecución de pruebas en la consola
-
Ve a la política de razonamiento automatizado que deseas validar (por ejemplo, MyHrPolicy).
-
Elija Ver elementos.
-
Realice una de las siguientes acciones:
-
Para ejecutar todas las pruebas de su política, seleccione Validar todas las pruebas.
-
Para ejecutar las pruebas de forma individual, seleccione el botón Acción situado junto a la prueba que desee ejecutar y elija Validar.
-
Creación manual de una prueba mediante la API
Puede usar la operación de la API CreateAutomatedReasoningPolicyTestCase para probar una política de razonamiento automatizado mediante programación.
Parámetros de solicitud
Se requieren los siguientes parámetros obligatorios u opcionales al crear una prueba:
policyArn(obligatorio)-
El Nombre de recurso de Amazon (ARN) de la política de razonamiento automatizado para la que se crea la prueba.
queryContent(opcional)-
La consulta o el mensaje de entrada que generó el contenido, como la pregunta del usuario. Esto proporciona el contexto para la validación.
guardContent(obligatorio)-
El contenido de salida que está validado por la política de razonamiento automatizado. Esto representa la respuesta del modelo fundacional cuya precisión se comprobará.
expectedAggregatedFindingsResult(opcional)-
El resultado de validación esperado para la prueba (por ejemplo,
VALIDoINVALID). El resultado real de la prueba se selecciona clasificando los resultados por orden de importancia y seleccionando el peor resultado. El orden de clasificación es: ambiguo, imposible, inválido, satisfactorio y válido. Por ejemplo, una prueba que arroje dos resultados válidos y uno imposible tendrá un resultado agregado de imposible. confidenceThreshold(opcional)-
El nivel de confianza mínimo para la validación lógica. El contenido que alcanza el umbral se considera un resultado de alta confianza que puede validarse.
Ejemplo
En el siguiente ejemplo se muestra cómo probar una política de razonamiento automatizado usando la AWS CLI:
aws bedrock create-automated-reasoning-policy-test-case \ --policy-arn "arn:aws:bedrock:us-east-1:111122223333:automated-reasoning-policy/lnq5hhz70wgk" \ --query-content "Can I take a leave of absence if I'm a part-time employee?" \ --guard-content "No, only full-time employees are eligible for leave of absence." \ --expected-aggregated-findings-result "VALID" \ --confidence-threshold0.8
Ejemplo de respuesta:
{ "testCaseId": "test-12345abcde", "policyArn": "arn:aws:bedrock:us-east-1:111122223333:automated-reasoning-policy/lnq5hhz70wgk" }
Generación automática de pruebas mediante la API
Puedes usar la operación de la GetAutomatedReasoningPolicyNextScenario API para buscar los siguientes escenarios de prueba generados en función de las reglas de tu política.
Parámetros de solicitud
Se requieren los siguientes parámetros obligatorios u opcionales al generar escenarios de prueba:
policyArn(obligatorio)-
El Nombre de recurso de Amazon (ARN) de la política de razonamiento automatizado para la que se generan escenarios de prueba.
buildWorkdflowId(obligatorio)-
El identificador único del flujo de trabajo de compilación para los escenarios generados. Puedes obtener el último flujo de trabajo de compilación mediante la acción de la
ListAutomatedReasoningPolicyBuildWorkflowsAPI.
Ejemplo
El siguiente ejemplo muestra cómo obtener los siguientes escenarios de prueba generados para una política de razonamiento automatizado mediante: AWS CLI
aws bedrock get-automated-reasoning-policy-next-scenario \ --policy-arn "arn:aws:bedrock:us-east-1:111122223333:automated-reasoning-policy/lnq5hhz70wgk" \ --build-worflow-idd40fa7fc-351e-47d8-a338-53e4b3b1c690
La respuesta incluirá los escenarios de prueba generados que podrá revisar y usar para crear pruebas.
Ejecución de las pruebas con la API
Puede utilizar la operación de la StartAutomatedReasoningPolicyTestWorkflow API para ejecutar las pruebas de la política de razonamiento automatizado y la GetAutomatedReasoningPolicyTestResult operación para recuperar los resultados.
Parámetros de solicitud
Se requieren los siguientes parámetros al ejecutar una prueba:
policyArn(obligatorio)-
El Nombre de recurso de Amazon (ARN) de la política de razonamiento automatizado.
buildWorkdflowId(obligatorio)-
El identificador único del flujo de trabajo de compilación con el que quieres ejecutar las pruebas. Puedes obtener el último flujo de trabajo de compilación mediante la acción de la
ListAutomatedReasoningPolicyBuildWorkflowsAPI. testCaseIds(opcional)-
La lista de identificadores de prueba que se van a ejecutar. Si no se proporciona, se ejecutan todas las pruebas de la política.
Obtención de resultados de la prueba
Para recuperar los resultados de una prueba, usa los siguientes parámetros con la acción de la GetAutomatedReasoningPolicyTestResult API:
policyArn(obligatorio)-
El Nombre de recurso de Amazon (ARN) de la política de razonamiento automatizado.
buildWorkflowId(obligatorio)-
El identificador del flujo de trabajo de compilación. El flujo de trabajo de compilación debe mostrar un estado
COMPLETEDpara obtener resultados. testCaseId(obligatorio)-
El identificador único de la prueba para la que se van a recuperar resultados.
Ejemplo
En el siguiente ejemplo se muestra cómo ejecutar una prueba y recuperar los resultados mediante la AWS CLI:
# Run the test aws bedrock start-automated-reasoning-policy-test-workflow \ --policy-arn "arn:aws:bedrock:us-east-1:111122223333:automated-reasoning-policy/lnq5hhz70wgk" \ --build-worflow-idd40fa7fc-351e-47d8-a338-53e4b3b1c690# Get the test results aws bedrock get-automated-reasoning-policy-test-result \ --policy-arn "arn:aws:bedrock:us-east-1:111122223333:automated-reasoning-policy/lnq5hhz70wgk" \ --build-worflow-idd40fa7fc-351e-47d8-a338-53e4b3b1c690\ --test-case-idtest-12345abcde
La respuesta incluirá los resultados detallados de las pruebas con los resultados de la validación y el estado de la ejecución.