Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Detección y filtrado del contenido dañino mediante Barreras de protección para Amazon Bedrock
Barreras de protección para Amazon Bedrock proporciona protecciones que puede configurar para las aplicaciones de IA generativa en función de sus casos de uso y de las políticas de IA responsable. Puede crear varias barandillas adaptadas a diferentes casos de uso y aplicarlas en varios modelos básicos (FMs), lo que proporciona una experiencia de usuario coherente y estandariza los controles de seguridad y privacidad en todas las aplicaciones de IA generativas. Puede utilizar barreras de protección para modelar peticiones y respuestas con lenguaje natural.
Puede utilizar Barreras de protección para Amazon Bedrock de varias formas para ayudar a proteger las aplicaciones de IA generativa. Por ejemplo:
-
Una aplicación de chatbot puede utilizar barreras de protección para ayudar a filtrar las entradas dañinas de los usuarios y las respuestas tóxicas de los modelos.
-
Una aplicación bancaria puede utilizar barreras de protección para bloquear las consultas de los usuarios o las respuestas del modelo relacionadas con la búsqueda o la prestación de asesoramiento en materia de inversiones.
-
Una aplicación de centro de llamadas para resumir las transcripciones de las conversaciones entre usuarios y agentes puede utilizar barreras de protección para redactar la información de identificación personal (PII) de los usuarios a fin de proteger su privacidad.
Barreras de protección para Amazon Bedrock ofrece las siguientes medidas de seguridad (también conocidas como políticas) para detectar y filtrar contenido dañino:
-
Filtros de contenido: detectan y filtran el contenido de texto o imagen dañino en las peticiones de entrada o en las respuestas de los modelos. El filtrado se realiza en función de la detección de determinadas categorías de contenido dañino predefinidas: odio, insultos, contenido sexual, violencia, mala conducta y ataque de peticiones. También puede ajustar la intensidad del filtro para cada una de estas categorías. Estas categorías son compatibles con los niveles clásico y estándar. Con el nivel estándar, la detección de contenido no deseado se amplía para proteger contra el contenido dañino introducido en los elementos del código, incluidos los comentarios, los nombres de variables y funciones y las cadenas literales.
-
Temas denegados: defina un conjunto de temas no deseables en el contexto de su solicitud. El filtro ayudará a bloquearlos si se detectan en las consultas de los usuarios o en las respuestas del modelo. Con el nivel estándar, la detección de contenido no deseado se amplía a la protección contra el contenido dañino introducido en los elementos del código, incluidos los comentarios, las variables y los nombres de funciones y las cadenas literales.
-
Filtros de palabras: configure los filtros para ayudar a bloquear palabras, frases y blasfemias (coincidencia exacta). Estas palabras pueden incluir términos ofensivos, nombres de la competencia, etc.
-
Filtros de información confidencial: configure filtros para bloquear o enmascarar información confidencial, como la información de identificación personal (PII), o personalice las expresiones regulares en las entradas de los usuarios y en las respuestas del modelo. El bloqueo o enmascaramiento se realiza en función de la detección probabilística de información confidencial en formatos estándar en entidades como el número de seguridad social, la fecha de nacimiento, la dirección, etc. Esto también permite configurar la detección de patrones de identificadores basada en expresiones regulares.
-
Verificaciones de fundamento contextual: ayudan a detectar y filtrar las alucinaciones en las respuestas del modelo según el fundamento en un origen y su relevancia para la consulta del usuario.
-
Verificaciones de razonamiento automatizado: pueden ayudarlo a validar la precisión de las respuestas del modelo fundacional en función de un conjunto de reglas lógicas. Puede utilizar las verificaciones de razonamiento automatizado para detectar alucinaciones, sugerir correcciones y resaltar suposiciones no declaradas en las respuestas de los modelos.
Además de las políticas anteriores, también puede configurar los mensajes para que se devuelvan al usuario en caso de que una entrada del usuario o una respuesta del modelo infrinjan las políticas definidas en la barrera de protección.
Experimente y compare diferentes configuraciones y utilice la ventana de prueba integrada para garantizar que los resultados cumplan los requisitos de su caso de uso. Al crear una barrera de protección, hay un borrador de trabajo disponible automáticamente para que lo modifique de forma iterativa. Experimente con diferentes configuraciones y utilice la ventana de prueba integrada para comprobar si son adecuadas para su caso de uso. Si le satisface el conjunto de configuraciones, puede crear una versión de la barrera de protección y utilizarla con los modelos fundacionales compatibles.
Las barandillas se pueden usar directamente FMs durante la invocación a la API de inferencia especificando el ID de la barandilla y la versión. Las barreras de protección también se pueden utilizar directamente a través de la API ApplyGuardrail sin tener que invocar los modelos fundacionales. Si se utiliza una barrera de protección, esta evaluará las peticiones de entrada y la finalización del FM comparándolas con las políticas definidas.
En el caso de las aplicaciones de generación aumentada por recuperación (RAG) o conversacionales, es posible que tenga que evaluar únicamente la entrada del usuario en la petición de entrada y, al mismo tiempo, descartar las instrucciones del sistema, los resultados de la búsqueda, el historial de conversaciones o algunos ejemplos breves. Para evaluar una sección de la petición de entrada de forma selectiva, consulte Aplicación de etiquetas a las entradas de usuarios para filtrar el contenido.
Temas
Funcionamiento de las barreras de protección de Amazon Bedrock
Regiones y modelos compatibles con Barreras de protección para Amazon Bedrock
Niveles de protección para las políticas de barreras de protección
Idiomas compatibles con Barreras de protección para Amazon Bedrock
Requisitos previos para usar Barreras de protección para Amazon Bedrock
Configuración de permisos para usar Barreras de protección para Amazon Bedrock
Distribución de la inferencia de barreras de protección entre Regiones de AWS
Aplica medidas de seguridad entre cuentas con las medidas de seguridad de Amazon Bedrock Guardrails
Visualización de información sobre las barreras de protección