Configurar filtros de contenido para Amazon Bedrock Guardrails - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Configurar filtros de contenido para Amazon Bedrock Guardrails

Con Amazon Bedrock Guardrails, puede configurar filtros de contenido para bloquear las indicaciones y respuestas del modelo en lenguaje natural para el texto y las imágenes que contengan contenido dañino. Por ejemplo, un sitio de comercio electrónico puede diseñar su asistente en línea para evitar el uso de lenguaje o imágenes inapropiados.

Filtrado de los niveles de bloqueo y clasificación

El filtrado se realiza en función de la clasificación de confianza de las entradas de los usuarios y las respuestas del FM en cada una de las seis categorías. Todas las entradas de los usuarios y las respuestas del FM se clasifican en cuatro niveles de intensidad: NONE, LOW, MEDIUM y HIGH. Por ejemplo, si una instrucción se clasifica como odio con una confianza HIGH, la probabilidad de que esa instrucción represente un contenido que incite al odio es elevada. Una sola instrucción se puede clasificar en varias categorías con distintos niveles de confianza. Por ejemplo, una sola instrucción puede clasificarse como Odio con una confianza HIGH, Insultos con una confianza LOW, Sexual con una confianza NONE y Violencia con confianza MEDIUM.

Intensidad del filtro

Puede configurar la intensidad de los filtros para cada una de las categorías de filtros de contenido. La intensidad del filtro determina la sensibilidad al filtrar el contenido dañino. A medida que aumenta la intensidad del filtro, aumenta la probabilidad de filtrar contenido dañino y disminuye la probabilidad de ver contenido dañino en la aplicación.

El filtro tiene cuatro niveles de intensidad:

  • Ninguno: no se aplican filtros de contenido. Se permiten todas las entradas de los usuarios y las salidas generadas por el FM.

  • Baja: la intensidad del filtro es baja. Se filtra el contenido clasificado como dañino con confianza HIGH. Se permite el contenido clasificado como dañino con confianza NONE, LOW o MEDIUM.

  • Medio: se filtra el contenido clasificado como dañino con una confianza HIGH y MEDIUM. Se permite el contenido clasificado como dañino con una confianza NONE o LOW.

  • Alta: representa la configuración de filtrado más estricta. Se filtra el contenido clasificado como dañino con una confianza HIGH, MEDIUM y LOW. Se permite el contenido que se considere inofensivo.

Intensidad del filtro Confianza del contenido bloqueado Confianza del contenido permitido
Ninguno No filtrado Ninguna, baja, media, alta
Bajo Alto Ninguna, baja, media
Medio Alta, media Ninguna, baja
Alto Ninguna, media, baja Ninguno