Bloqueo de palabras y conversaciones dañinas con filtros de contenido - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Bloqueo de palabras y conversaciones dañinas con filtros de contenido

Amazon Bedrock Guardrails admite filtros de contenido para ayudar a detectar y filtrar las entradas dañinas de los usuarios y las salidas generadas por modelos en lenguaje natural. Los filtros de contenido se admiten en las siguientes categorías:

Odio

  • Describe las sugerencias y modela las respuestas que discriminan, critican, insultan, denuncian o deshumanizan a una persona o grupo por motivos de identidad (por ejemplo, raza, etnia, género, religión, orientación sexual, capacidad y origen nacional).

Insultos

  • Describe las indicaciones de entrada y modela las respuestas que incluyen un lenguaje degradante, humillante, burlón, insultante o denigrante. Este tipo de lenguaje también se denomina intimidación.

Sexual

  • Describe las indicaciones de entrada y modela las respuestas que indican interés, actividad o excitación sexual utilizando referencias directas o indirectas a partes del cuerpo, rasgos físicos o sexo.

Violencia

  • Describe las indicaciones de entrada y modela las respuestas, que incluyen la glorificación o las amenazas de infligir dolor físico, lesión o lesión a una persona, grupo o cosa.

Mala conducta

  • Describe las sugerencias y modela las respuestas que buscan o proporcionan información sobre la participación en actividades delictivas o sobre el daño, la defraudación o el aprovechamiento de una persona, grupo o institución.

Configura filtros de contenido para tu barandilla

Puede configurar filtros de contenido para su barandilla mediante la API o AWS Management Console Amazon Bedrock.

Console
  1. Inicie sesión en el rol de AWS Management Console uso de IAM con los permisos de Amazon Bedrock y abra la consola de Amazon Bedrock en. https://console.aws.amazon.com/bedrock/

  2. En el panel de navegación izquierdo, selecciona Guardrails y, a continuación, selecciona Create guardrail.

  3. En la página de detalles de proporcionar barandillas, haga lo siguiente:

    1. En la sección Detalles de la barrera de protección, proporcione un Nombre y, si lo desea, una Descripción para la barrera de protección.

    2. En Mensajes para mensajes bloqueados, introduzca un mensaje que aparezca cuando la barandilla esté colocada. Selecciona la casilla Aplicar el mismo mensaje bloqueado a las respuestas para usar el mismo mensaje cuando la barrera esté colocada en la respuesta.

    3. (Opcional) Para habilitar la inferencia entre regiones para la barandilla, expanda la inferencia entre regiones y, a continuación, seleccione Habilitar la inferencia entre regiones para la barandilla. Elija un perfil de barandilla que defina el destino al que se pueden enrutar las solicitudes de inferencia de barandillas. Regiones de AWS

    4. (Opcional) De forma predeterminada, la barandilla está cifrada con un. Clave administrada de AWS Para usar su propia clave de KMS administrada por el cliente, amplíe la selección de claves de KMS y seleccione la casilla de verificación Personalizar la configuración de cifrado (avanzada).

      Puede seleccionar una AWS KMS clave existente o seleccionar Crear una AWS KMS clave para crear una nueva.

    5. (Opcional) Para añadir etiquetas a la barandilla, expanda Etiquetas. A continuación, selecciona Añadir nueva etiqueta para cada etiqueta que definas.

      Para obtener más información, consulte Etiquetado de los recursos de Amazon Bedrock.

    6. Elija Siguiente.

  4. En la página Configurar filtros de contenido, defina con qué intensidad desea filtrar el contenido relacionado con las categorías definidas Bloqueo de palabras y conversaciones dañinas con filtros de contenido de la siguiente manera:

    1. Seleccione Configurar el filtro de categorías dañinas. Seleccione Texto o imagen para filtrar el contenido de texto o imagen de las solicitudes o respuestas al modelo. Seleccione Ninguno, Bajo, Medio o Alto para el nivel de filtrado que desee aplicar a cada categoría. Puede optar por tener diferentes niveles de filtro para las solicitudes o las respuestas. Puede seleccionar el filtro para los ataques de peticiones en las categorías dañinas. Configure el grado de rigidez que quiere para cada filtro para las peticiones que el usuario proporciona al modelo.

    2. Selecciona Bloquear o Detectar (sin realizar ninguna acción) para determinar qué medidas adoptará tu barrera cuando detecte contenido dañino en las solicitudes y respuestas.

      Para obtener más información, consulte Opciones para gestionar el contenido dañino detectado por Amazon Bedrock Guardrails.

    3. En Establecer umbral, selecciona Ninguno, Bajo, Medio o Alto para el nivel de filtrado que quieras aplicar a cada categoría.

      Puede optar por tener diferentes niveles de filtro para las solicitudes y las respuestas.

    4. Para el nivel de filtros de contenido, elija el nivel de protección que desee que utilice su barandilla para filtrar las solicitudes y respuestas basadas en texto. Para obtener más información, consulte Proteja los niveles para las políticas de barandas.

    5. Elija Siguiente para configurar otras políticas según sea necesario o Saltar a revisar y crear para terminar de crear su barandilla.

  5. Revisa la configuración de tu barandilla.

    1. Seleccione Editar en cualquier sección en la que desee realizar cambios.

    2. Cuando haya terminado de configurar las políticas, seleccione Crear para crear la barandilla.

API

Configura los filtros de contenido para tu barandilla enviando una solicitud. CreateGuardrail El formato de la solicitud es el siguiente:

POST /guardrails HTTP/1.1 Content-type: application/json { "blockedInputMessaging": "string", "blockedOutputsMessaging": "string", "contentPolicyConfig": { "filtersConfig": [ { "inputAction": "BLOCK | NONE", "inputModalities": [ "TEXT" ], "inputStrength": "NONE | LOW | MEDIUM | HIGH", "outputStrength": "NONE | LOW | MEDIUM | HIGH", "type": "SEXUAL | VIOLENCE | HATE | INSULTS | MISCONDUCT" } ], "tierConfig": { "tierName": "CLASSIC | STANDARD" } }, "crossRegionConfig": { "guardrailProfileIdentifier": "string" }, "description": "string", "name": "string" }
  • Especifique un name y una description para la barrera de protección.

  • Especifique los mensajes para cuando la barrera de protección bloquee correctamente una petición o una respuesta del modelo en los campos blockedInputMessaging y blockedOutputsMessaging.

  • Especifique las intensidades de los filtros para las categorías dañinas disponibles en el contentPolicyConfig objeto.

    Cada elemento de la lista filtersConfig pertenece a una categoría dañina. Para obtener más información, consulte Bloqueo de palabras y conversaciones dañinas con filtros de contenido. Para obtener más información sobre los campos de un filtro de contenido, consulte ContentFilter.

    • (Opcional) Para inputAction youtputAction, especifique la acción que realiza la barandilla cuando detecta contenido dañino en las solicitudes y respuestas.

    • (Opcional) Especifica la acción que se debe tomar cuando se detecte contenido dañino en las solicitudes que se utilizan o en las respuestas que se utilizaninputAction. outputAction Elige BLOCK bloquear el contenido y sustituirlo por mensajes bloqueados, o bien no NONE realizar ninguna acción y devolver la información detectada. Para obtener más información, consulte Opciones para gestionar el contenido dañino detectado por Amazon Bedrock Guardrails.

    • Especifique la intensidad del filtro para las solicitudes en el inputStrength campo y para las respuestas del modelo en el outputStrength campo.

    • Especifique la categoría en el campo type.

  • (Opcional) Especifique un nivel de protección para la barandilla en el tierConfig objeto situado dentro del objeto. contentPolicyConfig Las opciones incluyen niveles STANDARD y niveles. CLASSIC

    Para obtener más información, consulte Proteja los niveles para las políticas de barandas.

  • (Opcional) Para habilitar la inferencia entre regiones, especifique un perfil de barandilla en el objeto. crossRegionConfig Esto es obligatorio cuando se utiliza el nivel. STANDARD

El formato de respuesta es el siguiente:

HTTP/1.1 202 Content-type: application/json { "createdAt": "string", "guardrailArn": "string", "guardrailId": "string", "version": "string" }