Creación manual de una prueba en la consola Generación automática de pruebas en la consola Ejecución de pruebas en la consola Creación manual de una prueba mediante la API Generación automática de pruebas mediante la API Ejecución de las pruebas con la API

Prueba de una política de razonamiento automatizado

Usted prueba una política enviando declaraciones en lenguaje natural o QnAs para su validación y, a continuación, inspecciona Automated Reasoning comprueba los comentarios para asegurarse de que está traduciendo el texto de entrada utilizando las variables correctas y de que las reglas con las que se valida son correctas.

Puede crear pruebas de dos maneras: definiendo pares manualmente question-and-answer (QnA) o generando escenarios de prueba automáticamente. QnAs son preguntas específicas de los usuarios con las correspondientes respuestas modelo que usted escribe para probar casos de uso específicos, mientras que los escenarios de prueba son situaciones lógicas generadas automáticamente a partir de las reglas de su política que pueden o no ser realistas en el contexto de su aplicación.

nota

Vídeo tutorial: Para ver un step-by-step tutorial sobre cómo probar una política de razonamiento automatizado, consulte el siguiente tutorial:

Demostración del tutorial 2: Prueba de la política de razonamiento automatizado

Las pruebas deben imitar las preguntas que harían los usuarios de la aplicación y las respuestas que podrían obtener de un modelo fundacional. El razonamiento automatizado evalúa la precisión de las peticiones y las respuestas con respecto a las reglas de su política de razonamiento automatizado. El razonamiento automatizado realiza esta validación en los siguientes pasos:

sugerencia

Práctica recomendada: cree pruebas que cubran escenarios válidos y no válidos. Por ejemplo, si su política establece que “los empleados necesitan un año de servicio para obtener una baja por paternidad/maternidad”, cree pruebas para las respuestas que reflejen correctamente esta regla y para las respuestas que reflejen incorrectamente un requisito diferente.

Utilice las preguntas y respuestas de la prueba junto con las variables de la política y sus descripciones para traducir las entradas del lenguaje natural a una lógica formal.
Valide la lógica traducida comparándola con la política mediante el uso de técnicas matemáticas sólidas.

nota

El razonamiento automatizado traduce el lenguaje natural en lógica mediante técnicas de IA que no pueden garantizar una precisión perfecta. Sin embargo, unas buenas pruebas ayudarán a detectar y corregir posibles imprecisiones en sus políticas de razonamiento automatizado.

Creación manual de una prueba en la consola

Ve a la política de razonamiento automatizado que quieras probar (por ejemplo, MyHrPolicy).
Elija Ver pruebas y, a continuación, seleccione Agregar.
En el cuadro de diálogo Agregar pruebas, haga lo siguiente:
1. Incluya una entrada (opcional) y una salida. Representan la pregunta que podría hacer un usuario y la respuesta que podría proporcionar su modelo fundacional, y juntas forman un par de QnA que pone a prueba la forma en que su política valida las interacciones reales de los usuarios.
2. Elija el resultado que espera de la prueba (por ejemplo, Válidoo No válido).
3. Seleccione un umbral de confianza, que es el nivel de confianza mínimo para la validación lógica.
Seleccione Guardar para crear la prueba.

nota

Al crear una prueba, el umbral de confianza es opcional.

Las comprobaciones de razonamiento automatizadas utilizan varios modelos lingüísticos de gran tamaño (LLMs) para traducir las pruebas de lenguaje natural en resultados. Solo devuelve resultados “fiables” que están respaldados por un porcentaje significativo de las traducciones del LLM. El umbral de confianza define el porcentaje mínimo de respaldo necesario para que una traducción se convierta en una conclusión con un resultado válido.
Si hay uno o más resultados traducidos que no están respaldados por un porcentaje suficiente de traducciones del LLM, las verificaciones de razonamiento automatizado arrojarán un resultado adicional de “TRANSLATION_AMBIGUOUS”. Este resultado contendrá información que resaltará las diferencias entre las traducciones del LLM que no coinciden.

Generación automática de pruebas en la consola

Ve a la política de razonamiento automatizado que quieras probar (por ejemplo, MyHrPolicy).
Elija Ver pruebas y, a continuación, seleccione Generar.
En el cuadro de diálogo Generar escenarios, revise el escenario generado y las reglas relacionadas. A continuación, realice alguna de las operaciones siguientes:
- Si cree que el escenario podría ocurrir (lo que conoce también como escenario probable), seleccione el pulgar arriba (sí).
- Si no, seleccione el pulgar abajo (no). También puede incluir una anotación para explicar por qué cree que el escenario no es posible. Esto es similar a dejar un comentario en un documento.
- Si desea probar un escenario diferente, elija Volver a generar escenario.
sugerencia
Si desea inspeccionar la versión lógica formal del escenario, habilite Mostrar SMT-LIB.
Seleccione Guardar y cerrar para guardar la prueba o Guardar y añadir otra prueba.
Si proporcionó anotaciones a alguna de las pruebas, elija Aplicar anotaciones. El razonamiento automatizado realizará cambios en su política en función de sus comentarios.
En la pantalla Revisar los cambios de la política, revise los cambios en las reglas, las variables y los tipos de variables de su política. A continuación, seleccione Aceptar cambios.

Ejecución de pruebas en la consola

Ve a la política de razonamiento automatizado que deseas validar (por ejemplo, MyHrPolicy).
Elija Ver elementos.
Realice una de las siguientes acciones:
- Para ejecutar todas las pruebas de su política, seleccione Validar todas las pruebas.
- Para ejecutar las pruebas de forma individual, seleccione el botón Acción situado junto a la prueba que desee ejecutar y elija Validar.

Creación manual de una prueba mediante la API

Puede usar la operación de la API CreateAutomatedReasoningPolicyTestCase para probar una política de razonamiento automatizado mediante programación.

Parámetros de solicitud

Se requieren los siguientes parámetros obligatorios u opcionales al crear una prueba:

policyArn (obligatorio): El Nombre de recurso de Amazon (ARN) de la política de razonamiento automatizado para la que se crea la prueba.
queryContent (opcional): La consulta o el mensaje de entrada que generó el contenido, como la pregunta del usuario. Esto proporciona el contexto para la validación.
guardContent (obligatorio): El contenido de salida que está validado por la política de razonamiento automatizado. Esto representa la respuesta del modelo fundacional cuya precisión se comprobará.
expectedAggregatedFindingsResult (opcional): El resultado de validación esperado para la prueba (por ejemplo, VALID o INVALID). El resultado real de la prueba se selecciona clasificando los resultados por orden de importancia y seleccionando el peor resultado. El orden de clasificación es: ambiguo, imposible, inválido, satisfactorio y válido. Por ejemplo, una prueba que arroje dos resultados válidos y uno imposible tendrá un resultado agregado de imposible.
confidenceThreshold (opcional): El nivel de confianza mínimo para la validación lógica. El contenido que alcanza el umbral se considera un resultado de alta confianza que puede validarse.

Ejemplo

En el siguiente ejemplo se muestra cómo probar una política de razonamiento automatizado usando la AWS CLI:


aws bedrock create-automated-reasoning-policy-test-case \
  --policy-arn "arn:aws:bedrock:us-east-1:111122223333:automated-reasoning-policy/lnq5hhz70wgk" \
  --query-content "Can I take a leave of absence if I'm a part-time employee?" \
  --guard-content "No, only full-time employees are eligible for leave of absence." \
  --expected-aggregated-findings-result "VALID" \
  --confidence-threshold 0.8

Ejemplo de respuesta:


{
  "testCaseId": "test-12345abcde",
  "policyArn": "arn:aws:bedrock:us-east-1:111122223333:automated-reasoning-policy/lnq5hhz70wgk"
}

Generación automática de pruebas mediante la API

Puedes usar la operación de la GetAutomatedReasoningPolicyNextScenario API para buscar los siguientes escenarios de prueba generados en función de las reglas de tu política.

Parámetros de solicitud

Se requieren los siguientes parámetros obligatorios u opcionales al generar escenarios de prueba:

policyArn (obligatorio): El Nombre de recurso de Amazon (ARN) de la política de razonamiento automatizado para la que se generan escenarios de prueba.
buildWorkdflowId (obligatorio): El identificador único del flujo de trabajo de compilación para los escenarios generados. Puedes obtener el último flujo de trabajo de compilación mediante la acción de la ListAutomatedReasoningPolicyBuildWorkflows API.

Ejemplo

El siguiente ejemplo muestra cómo obtener los siguientes escenarios de prueba generados para una política de razonamiento automatizado mediante: AWS CLI


aws bedrock get-automated-reasoning-policy-next-scenario \
  --policy-arn "arn:aws:bedrock:us-east-1:111122223333:automated-reasoning-policy/lnq5hhz70wgk" \
  --build-worflow-id d40fa7fc-351e-47d8-a338-53e4b3b1c690

La respuesta incluirá los escenarios de prueba generados que podrá revisar y usar para crear pruebas.

Ejecución de las pruebas con la API

Puede utilizar la operación de la StartAutomatedReasoningPolicyTestWorkflow API para ejecutar las pruebas de la política de razonamiento automatizado y la GetAutomatedReasoningPolicyTestResult operación para recuperar los resultados.

Parámetros de solicitud

Se requieren los siguientes parámetros al ejecutar una prueba:

policyArn (obligatorio): El Nombre de recurso de Amazon (ARN) de la política de razonamiento automatizado.
buildWorkdflowId (obligatorio): El identificador único del flujo de trabajo de compilación con el que quieres ejecutar las pruebas. Puedes obtener el último flujo de trabajo de compilación mediante la acción de la ListAutomatedReasoningPolicyBuildWorkflows API.
testCaseIds (opcional): La lista de identificadores de prueba que se van a ejecutar. Si no se proporciona, se ejecutan todas las pruebas de la política.

Obtención de resultados de la prueba

Para recuperar los resultados de una prueba, usa los siguientes parámetros con la acción de la GetAutomatedReasoningPolicyTestResult API:

policyArn (obligatorio): El Nombre de recurso de Amazon (ARN) de la política de razonamiento automatizado.
buildWorkflowId (obligatorio): El identificador del flujo de trabajo de compilación. El flujo de trabajo de compilación debe mostrar un estado COMPLETED para obtener resultados.
testCaseId (obligatorio): El identificador único de la prueba para la que se van a recuperar resultados.

Ejemplo

En el siguiente ejemplo se muestra cómo ejecutar una prueba y recuperar los resultados mediante la AWS CLI:


# Run the test
aws bedrock start-automated-reasoning-policy-test-workflow \
  --policy-arn "arn:aws:bedrock:us-east-1:111122223333:automated-reasoning-policy/lnq5hhz70wgk" \
  --build-worflow-id d40fa7fc-351e-47d8-a338-53e4b3b1c690

# Get the test results
aws bedrock get-automated-reasoning-policy-test-result \
  --policy-arn "arn:aws:bedrock:us-east-1:111122223333:automated-reasoning-policy/lnq5hhz70wgk" \
  --build-worflow-id d40fa7fc-351e-47d8-a338-53e4b3b1c690 \ 
  --test-case-id test-12345abcde

La respuesta incluirá los resultados detallados de las pruebas con los resultados de la validación y el estado de la ejecución.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Creación de una política de razonamiento automatizado

Validación de los resultados de las pruebas de la política de razonamiento automatizado