Validación de los resultados de las pruebas de la política de razonamiento automatizado

Cuando finaliza una prueba, se le proporciona un conjunto de resultados de validación para que comprenda el rendimiento de su política de razonamiento automatizado.

Una prueba incluye la siguiente información:

Consulta y contenido: una pregunta que un usuario podría hacerle a su aplicación de IA generativa y una posible respuesta. Estos se definen si se crea la prueba manualmente. El razonamiento automatizado los define si generó escenarios de prueba.
Umbral de confianza: el nivel de confianza mínimo para la validación lógica que establece para la prueba. Este umbral determina la forma en que el razonamiento automatizado gestiona la incertidumbre al traducir el lenguaje natural a la lógica formal. El contenido que alcanza o supera el umbral se considera un resultado de alta confianza que puede validarse con un resultado definitivo (VÁLIDO o NO VÁLIDO). El contenido que se encuentra por debajo del umbral es un resultado de baja confianza que se marca como TRANSLATION_AMBIGUOUS, lo que indica que el sistema detectó una ambigüedad y decidió no proporcionar un resultado de validación potencialmente incorrecto.
Resultados de la validación:
- Resultado esperado: el resultado que espera al ejecutar la prueba.
- Resultado real: el resultado de la ejecución de la prueba.
- Resultado de ejecución: indica si se ha superado la prueba. Si los resultados esperados y reales coinciden, la prueba se ha superado. Si no es así, la prueba no se ha superado.
Resultados: la salida de una prueba de la política de razonamiento automatizado es un conjunto de resultados. Los resultados representan las afirmaciones fácticas contenidas en la pregunta y la respuesta de la prueba. Utilícelas para entender por qué se superó o no se superó una prueba.
- Tipo: las traducciones pueden incluir una combinación de afirmaciones y premisas.
  - Premisa: proporciona el contexto, las suposiciones o las condiciones que afectan a la forma en que debe evaluarse una afirmación. En los question-and-answer formatos, la premisa suele ser la pregunta en sí misma. Las respuestas también pueden contener premisas que establezcan restricciones o condiciones. Por ejemplo, en la pregunta “¿Qué números son divisibles por 2?” y la respuesta “Los números pares”, la premisa es “números divisibles por 2”. En la frase “Cuando el semáforo se ponga en verde, se puede avanzar», la premisa es “el semáforo está en verde”.
  - Afirmaciones: afirmaciones fácticas cuya precisión evalúa el razonamiento automatizado. En un question-and-answer formato, la afirmación suele ser la respuesta. En una afirmación independiente, la afirmación es el hecho que se afirma. Por ejemplo, en la pregunta “¿Qué números son divisibles por 2?” y la respuesta “Los números pares”, la afirmación es “números pares”.
- Resultado: indica la validez de las afirmaciones de un resultado. Para obtener más información, consulte Resultados de la validación de prueba.
- Confianza: la puntuación de confianza (que va de 0,0 a 1,0) que el razonamiento automatizado tiene en la traducción del lenguaje natural a la lógica formal, lo que representa la seguridad del sistema de haber interpretado correctamente el texto introducido. Las puntuaciones más altas indican mayor confianza en la traducción. Por ejemplo, si una traducción tiene una confianza de “1,0”, eso indica la máxima certeza de que el lenguaje natural se ha convertido con precisión a la lógica formal. Las puntuaciones de confianza más bajos sugieren que el sistema tiene cierta incertidumbre acerca de la traducción que quizás desee revisar.
- Asignaciones: asignaciones variables de su política que demuestran que el resultado es válido o no. Las traducciones tienen enunciados lógicos que muestran cómo se convirtió el lenguaje natural a la lógica formal. Estos pueden ser más complejos cuando hay una lógica anidada. Por ejemplo, hasDogHistoryOfAggression is false.
- Reglas: la lógica extraída de su política que respalda el resultado. Una prueba le proporciona suficientes reglas relevantes de su política para ayudarle a entender el resultado.

Resultados de la validación de prueba

En la siguiente lista se detallan los posibles resultados de validación de una prueba de política de razonamiento automatizado:

VALID

Las premisas y afirmaciones de la respuesta del modelo son coherentes desde el punto de vista lógico con las normas de la póliza, se puede demostrar matemáticamente que son correctas y no se pueden refutar utilizando ninguna de las normas de la política. La respuesta sigue correctamente todas las restricciones lógicas aplicables y el razonamiento, desde las premisas hasta las conclusiones, es sólido.

Ejemplo: si tu póliza contiene una sola regla que dice «Los empleados con más de un año de servicio obtienen una licencia parental» y el modelo responde: «Tienes derecho a la licencia parental porque has trabajado aquí durante 18 meses», esto sería válido porque 18 meses superan el requisito de 1 año.

nota

VALIDgarantiza la validez únicamente de una parte de la información recogida a través de las variables políticas de las instalaciones y de las afirmaciones derivadas de la VALID conclusión. Por ejemplo, la afirmación «Puedo entregar mi tarea con retraso porque tengo un certificado médico falso» podría considerarse válida porque la política no incluye una variable que indique si el certificado médico es falso o no. En algunos casos, las verificaciones automatizadas de razonamiento pueden identificar esas afirmaciones como premisas o afirmaciones no traducidas en la conclusión.

INVALID

Las afirmaciones de la respuesta del modelo contradicen o infringen las normas de su política. La respuesta contiene afirmaciones que pueden demostrarse matemáticamente como incorrectas en función de las restricciones lógicas formales de su política.

Ejemplo: si su política indica que “los empleados con más de un año de servicio obtienen un permiso de paternidad» y el modelo responde: “Tiene derecho al permiso de paternidad porque ha trabajado aquí durante tres meses”, esto sería NO VÁLIDO porque tres meses no cumple el requisito de un año.

SATISFIABLE

Las afirmaciones concuerdan con al menos una posible interpretación de las normas de su política, pero es posible que no aborden todas las normas pertinentes. Esto significa que la respuesta no contradice su política, pero es posible que no aborde por completo todas las restricciones aplicables.

Ejemplo: si su política establece que “los empleados necesitan más de un año de servicio para obtener el permiso de paternidad Y deben presentar el formulario HR-101” y el modelo responde “Tiene derecho al permiso por paternidad porque ha trabajado aquí durante dos años”, sería SATISFACTORIO porque la respuesta aborda correctamente el requisito de servicio, pero no menciona el requisito del formulario (sin contradecirlo).

IMPOSSIBLE

El razonamiento automatizado no puede hacer una declaración sobre las afirmaciones. Esto puede suceder si las premisas están en conflicto entre sí o si existe un conflicto dentro de la propia política de razonamiento automatizado.

Ejemplo: si tu póliza contiene reglas contradictorias, como «Todos los empleados tienen días de vacaciones» y «Ningún empleado tiene días de vacaciones», o si la pregunta del examen contiene premisas imposibles como «Soy empleado a tiempo completo y también a tiempo parcial», ¿a qué prestaciones puedo acogerme? , el resultado sería IMPOSIBLE porque el fundamento lógico es erróneo.

TRANSLATION_AMBIGUOUS

Si se detectó una ambigüedad en la traducción, no sería correcto continuar con la comprobación de la validez. Es posible que se necesiten preguntas de contexto adicionales o de seguimiento para que la traducción se realice correctamente.

Ejemplo: si la pregunta de la prueba es “¿Pueden ausentarse?” sin especificar a quién se refieren ese “pueden” o si la respuesta del modelo utiliza pronombres ambiguos como “Depende de su situación” sin referentes claros, el resultado sería TRANSLATION_AMBIGUOUS porque el sistema no puede traducir de forma fiable el lenguaje impreciso a una lógica formal.

TOO_COMPLEX

La entrada contiene demasiada información como para que la característica de razonamiento automatizado la procese dentro de sus límites de latencia.

Ejemplo: si la prueba incluye un modelo de respuesta extremadamente extenso con cientos de solicitudes interconectadas sobre las prestaciones de los empleados, las políticas de vacaciones, el seguro médico, los planes de jubilación y las evaluaciones de rendimiento en una sola respuesta, el resultado podría ser TOO_COMPLEX, ya que el análisis lógico superaría los límites de tiempo de procesamiento.

NO_TRANSLATIONS

Identifica que una parte o la totalidad de la petición de entrada no se tradujo en lógica. Esto puede suceder si la entrada no es relevante para la política de razonamiento automatizado o si la política no tiene variables para modelar la entrada relevante. Si el razonamiento automatizado no puede traducir nada, se obtiene un único resultado NO_TRANSLATIONS. También es posible que vea NO_TRANSLATIONS (junto con otros resultados) si alguna parte de la validación no se traduce.

Ejemplo: si su política de recursos humanos está diseñada para validar las prestaciones de los empleados, pero la pregunta de la prueba es “¿Qué tiempo hace hoy?” o “¿Cómo cocino la pasta?”, el resultado sería NO_TRANSLATIONS porque el contenido no tiene ninguna relación con el dominio ni con las variables de la política.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Prueba de una política de razonamiento automatizado

Cómo abordar las pruebas de política de razonamiento automatizado no superadas