Detección y filtrado del contenido dañino mediante Barreras de protección para Amazon Bedrock

Amazon Bedrock Guardrails proporciona protecciones configurables para ayudarlo a crear aplicaciones de IA generativa seguras. Con controles integrales de seguridad y privacidad en todos los modelos básicos (FMs), Amazon Bedrock Guardrails ofrece una experiencia de usuario coherente para ayudar a detectar y filtrar el contenido no deseado y proteger la información confidencial que pueda estar presente en las entradas de los usuarios o en las respuestas de los modelos (excepto los bloques de contenido de Razonamiento).

Puede usar Amazon Bedrock Guardrails en varios casos de uso y aplicaciones. A continuación se muestran algunos ejemplos:

Una aplicación de chatbot que ayuda a filtrar las entradas dañinas de los usuarios y las respuestas tóxicas de los modelos.
Una aplicación bancaria que ayuda a bloquear las consultas de los usuarios o modelar las respuestas relacionadas con la búsqueda o el suministro de asesoramiento sobre inversiones ilegales.
Una aplicación de centro de llamadas para resumir las transcripciones de las conversaciones entre usuarios y agentes puede utilizar barreras de protección para redactar la información de identificación personal (PII) de los usuarios a fin de proteger su privacidad.

Amazon Bedrock Guardrails ofrece las siguientes medidas de seguridad (también conocidas como filtros) para detectar y filtrar el contenido no deseado:

Filtros de contenido: este filtro le ayuda a detectar y filtrar contenido de texto o imagen dañino en las solicitudes de entrada o en las respuestas de los modelos. El filtrado se realiza en función de la detección de determinadas categorías de contenido dañino predefinidas: odio, insultos, contenido sexual, violencia, mala conducta y ataque de peticiones. Puede configurar la intensidad del filtro para cada una de estas categorías en función de sus casos de uso. Estas categorías son compatibles con los niveles clásico y estándar. Con el nivel estándar, la detección de contenido no deseado se amplía para proteger contra el contenido dañino introducido en los elementos del código, incluidos los comentarios, los nombres de variables y funciones y las cadenas literales.
Temas rechazados: puede definir un conjunto de temas que no son deseables en el contexto de su aplicación. El filtro ayudará a bloquearlos si se detectan en las consultas de los usuarios o en las respuestas del modelo. Con el nivel estándar, la detección de contenido no deseado se amplía a la protección contra el contenido dañino introducido en los elementos del código, incluidos los comentarios, las variables y los nombres de funciones, y las cadenas literales.
Filtros de palabras: puede definir un conjunto de palabras o frases personalizadas (coincidencias exactas) que desee bloquear en la interacción entre los usuarios finales y las aplicaciones de IA generativa. Por ejemplo, puedes bloquear las blasfemias (usa una ready-to-use opción), así como las palabras personalizadas, como los nombres de los competidores.
Filtros de información confidencial: puede configurar este filtro para ayudar a bloquear o enmascarar la información confidencial, como la información de identificación personal (PII), en las entradas de los usuarios y en las respuestas del modelo. El bloqueo o el enmascaramiento se realizan en función de la detección probabilística de información confidencial en entidades como el número de seguro social, la fecha de nacimiento, la dirección, etc. Este filtro también permite configurar la detección de patrones basada en expresiones regulares (expresiones regulares personalizadas).
Comprobaciones de base contextual: este filtro le ayuda a detectar alucinaciones en las respuestas de los modelos si no se basan en la fuente (son inexactas desde el punto de vista fáctico o añaden nueva información) o son irrelevantes para la consulta del usuario. Por ejemplo, puede bloquear o marcar las respuestas en las aplicaciones de generación de recuperación aumentada (RAG). Si las respuestas del modelo se desvían de la información de la fuente recuperada o no responden a la pregunta del usuario.
Comprobaciones de razonamiento automatizadas: este filtro le ayuda a validar la precisión de las respuestas del modelo básico en función de un conjunto de reglas lógicas. Puede utilizar las verificaciones de razonamiento automatizado para detectar alucinaciones, sugerir correcciones y resaltar suposiciones no declaradas en las respuestas de los modelos.

Además de los filtros anteriores, también puede configurar los mensajes para que se devuelvan al usuario si una entrada o respuesta del usuario modela infringe los filtros definidos en la barandilla.

Experimente y compare diferentes configuraciones y utilice la ventana de prueba integrada para garantizar que los resultados cumplan los requisitos de su caso de uso. Al crear una barrera de protección, hay un borrador de trabajo disponible automáticamente para que lo modifique de forma iterativa. Experimente con diferentes configuraciones y utilice la ventana de prueba integrada para comprobar si son adecuadas para su caso de uso. Si le satisface el conjunto de configuraciones, puede crear una versión de la barrera de protección y utilizarla con los modelos fundacionales compatibles.

Las barandillas se pueden usar directamente FMs durante la invocación a la API de inferencia especificando el ID de la barandilla y la versión. Las barreras de protección también se pueden utilizar directamente a través de la API ApplyGuardrail sin tener que invocar los modelos fundacionales. Si se utiliza una barandilla, esta evaluará las indicaciones de entrada y las terminaciones de FM comparándolas con los filtros definidos.

En el caso de las aplicaciones de recuperación, generación aumentada (RAG) o conversacionales, puede que tengas que evaluar únicamente las indicaciones del usuario y, al mismo tiempo, descartar las instrucciones del sistema, los resultados de la búsqueda, el historial de conversaciones o algunos ejemplos breves. Para evaluar de forma selectiva una sección de la solicitud de entrada, consulte Aplicación de etiquetas a las entradas de usuarios para filtrar el contenido La capacidad de evaluar solo una sección de la solicitud de entrada está disponible a través del SDK de AWS y no está disponible en la consola de administración, incluidas las consolas de administración Bedrock Playground y Bedrock Guardrails.

Temas

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Seguridad de la inyección de peticiones

Descripción general de