Opciones para gestionar el contenido dañino detectado por Amazon Bedrock Guardrails - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Opciones para gestionar el contenido dañino detectado por Amazon Bedrock Guardrails

Puede configurar las acciones que realizará su barandilla de Amazon Bedrock en tiempo de ejecución cuando detecte contenido dañino en las indicaciones (inputAction) y las respuestas (). outputAction

Las políticas de filtrado de Guardrails permiten las siguientes acciones cuando se detecta contenido dañino en las entradas y respuestas del modelo:

  • Bloquear: bloquea el contenido y sustitúyelo por mensajes bloqueados.

  • Máscara: anonimiza el contenido y sustitúyelo por etiquetas identificativas (como {NAME} o). {EMAIL}

    Esta opción solo está disponible con filtros de información confidencial. Para obtener más información, consulte Eliminación de la PII de las conversaciones con filtros de información confidencial.

  • Detectar: no realice ninguna acción, pero devuelva lo que la barandilla detecte en la respuesta de rastreo. Utilice esta opción, conocida como modo de detección, para evaluar si la barandilla funciona de la manera esperada.

Evaluación de la barandilla con modo de detección

Las políticas de Amazon Bedrock Guardrails admiten el modo de detección, que le permite evaluar el rendimiento de su barandilla sin aplicar ninguna acción (como bloquear el contenido).

El uso del modo de detección ofrece las siguientes ventajas:

  • Pruebe diferentes combinaciones y puntos fuertes de las políticas de su barandilla sin que ello repercuta en la experiencia del cliente.

  • Analice los falsos positivos o negativos y ajuste las configuraciones de sus políticas en consecuencia.

  • Despliegue la barandilla solo después de confirmar que funciona según lo esperado.

Ejemplo: usar el modo de detección para evaluar los filtros de contenido

Por ejemplo, supongamos que configura una política con una potencia de filtro de contenido deHIGH. Según esta configuración, la barandilla bloqueará el contenido aunque devuelva la confianza de su LOW evaluación.

Para entender este comportamiento (y asegurarte de que tu aplicación no bloquea el contenido que no esperas que bloquee), puedes configurar la acción de política como. NONE La respuesta de rastreo podría tener este aspecto:

{ "assessments": [{ "contentPolicy": { "filters": [{ "action": "NONE", "confidence": "LOW", "detected": true, "filterStrength": "HIGH", "type": "VIOLENCE" }] } }] }

Esto le permite obtener una vista previa de la evaluación de la barandilla y ver si se VIOLENCE detectó (true), pero no se realizó ninguna acción porque así lo configuró. NONE

Si no quiere bloquear ese texto, puede ajustar la intensidad del filtro MEDIUM o rehacer LOW la evaluación. Una vez que obtenga los resultados que busca, puede actualizar la acción política a BLOCK oANONYMIZE.