Creación de una barrera de protección

Amazon Bedrock Guardrails ofrece filtros que puede configurar para evitar contenido no deseado y dañino y eliminar o enmascarar información confidencial para proteger la privacidad.

Puede configurar los siguientes filtros con Amazon Bedrock Guardrails:

Filtros de contenido: este filtro le ayuda a detectar y filtrar el contenido de texto o imagen dañino en las solicitudes de entrada o las respuestas del modelo (excluyendo el contenido de razonamiento). El filtrado se realiza en función de la detección de determinadas categorías de contenido dañino predefinidas: odio, insultos, contenido sexual, violencia, mala conducta y ataque de peticiones. Puede configurar la intensidad del filtro para cada una de estas categorías en función de sus casos de uso. Con el nivel estándar, la detección de contenido no deseado se amplía para proteger contra el contenido dañino en los elementos del código, incluidos los comentarios, los nombres de variables y funciones y las cadenas literales.
Ataques rápidos: este filtro, que se ofrece como una categoría dentro de los filtros de contenido, puede ayudarlo a detectar y filtrar los ataques rápidos, como las fugas de jailbreak, las inyecciones rápidas y las filtraciones rápidas (solo en el nivel estándar). Esta función le ayuda a detectar mensajes que tienen por objeto eludir la moderación del contenido, anular las instrucciones o generar contenido dañino.
Temas denegados: puede definir un conjunto de temas a evitar en la aplicación de IA generativa. Por ejemplo, se puede diseñar una aplicación de asistente bancario para evitar temas relacionados con el asesoramiento sobre inversiones ilegales. Con el nivel estándar, los filtros de contenido se extienden a los dominios de código.
Filtros de palabras: puede definir un conjunto de palabras o frases personalizadas (coincidencias exactas) que desee detectar y bloquear en la interacción entre sus usuarios y las aplicaciones de IA generativa. Por ejemplo, puedes detectar y bloquear blasfemias (mediante una ready-to-use opción), así como palabras personalizadas específicas, como nombres de competidores u otras palabras ofensivas.
Filtros de información confidencial: pueden ayudarlo a detectar contenido confidencial, como información de identificación personal (PII) en formatos estándar o expresiones regulares personalizadas en las entradas de los usuarios y en las respuestas del FM. Este filtro es una solución probabilística basada en el aprendizaje automático (ML) que depende del contexto. Detecta información confidencial en función del contexto de las solicitudes de entrada o las respuestas del modelo. Según su caso de uso, puede bloquear o enmascarar las entradas y respuestas que contengan información confidencial. Por ejemplo, puede redactar información personal de los usuarios y, al mismo tiempo, generar resúmenes a partir de las transcripciones de las conversaciones entre clientes y agentes.
Verificaciones de fundamento contextual: puede ayudarlo a detectar y filtrar las alucinaciones en las respuestas del modelo si no se basan en la información original (son inexactas desde el punto de vista fáctico o añaden nueva información) o si son irrelevantes para la consulta del usuario. Por ejemplo, puede bloquear o marcar las respuestas en las aplicaciones RAG (generación de recuperación aumentada) si las respuestas del modelo se desvían de la información de los pasajes recuperados o no responden a la pregunta del usuario.
Verificaciones de razonamiento automatizado: pueden ayudarlo a validar que las respuestas del modelo cumplen las reglas y políticas lógicas que usted defina. Puede crear políticas utilizando un lenguaje natural que especifiquen los requisitos de razonamiento, y las comprobaciones de razonamiento automatizadas evaluarán si los resultados del modelo cumplen con estas restricciones lógicas. Por ejemplo, puedes asegurarte de que un chatbot de servicio al cliente solo recomiende los productos que estén disponibles en el inventario o comprobar que el asesoramiento financiero cumpla con las normas de cumplimiento normativo.

nota

Todo el contenido bloqueado de las políticas anteriores aparecerá como texto sin formato en los registros de invocación del modelo de Amazon Bedrock, si los ha activado. Puede deshabilitar los registros de invocación de Amazon Bedrock si no desea que el contenido bloqueado aparezca como texto sin formato en los registros.

Una barrera de protección debe contener al menos un filtro y mensajes para cuando se bloqueen las peticiones y las respuestas de los usuarios. Puede optar por utilizar los mensajes predeterminados. Para añadir filtros e iterarlos en la barrera de protección más adelante, siga los pasos que se indican en Modificación de la barrera de protección.

Temas

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Uso de políticas basadas en recursos para las barandillas

Configuración de filtros de contenido