Opções para lidar com conteúdo nocivo detectado pelo Amazon Bedrock Guardrails - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Opções para lidar com conteúdo nocivo detectado pelo Amazon Bedrock Guardrails

Você pode configurar quais ações seu guardrail do Amazon Bedrock executa em tempo de execução ao detectar conteúdo nocivo em prompts (inputAction) e respostas (). outputAction

As políticas de filtragem de proteções oferecem suporte às seguintes ações quando conteúdo nocivo é detectado nas entradas e respostas do modelo:

  • Bloquear — Bloqueie o conteúdo e substitua-o por mensagens bloqueadas.

  • Máscara — torne o conteúdo anônimo e substitua-o por etiquetas identificadoras (como {NAME} ou{EMAIL}).

    Essa opção está disponível somente com filtros de informações confidenciais. Para obter mais informações, consulte Remova as PII das conversas usando filtros de informações confidenciais.

  • Detectar — Não realize nenhuma ação, mas retorne o que a grade de proteção detecta na resposta de rastreamento. Use essa opção, conhecida como modo de detecção, para ajudar a avaliar se sua grade de proteção está funcionando da maneira esperada.

Avaliação do guarda-corpo com modo de detecção

As políticas do Amazon Bedrock Guardrails oferecem suporte ao modo de detecção, que permite avaliar o desempenho do seu guardrail sem aplicar nenhuma ação (como bloquear o conteúdo).

O uso do modo de detecção oferece os seguintes benefícios:

  • Teste diferentes combinações e pontos fortes das políticas do seu guardrail sem afetar a experiência do cliente.

  • Analise todos os falsos positivos ou negativos e ajuste suas configurações de política de acordo.

  • Implante sua grade de proteção somente depois de confirmar que ela funciona conforme o esperado.

Exemplo: uso do modo de detecção para avaliar filtros de conteúdo

Por exemplo, digamos que você configure uma política com uma intensidade de filtro de conteúdo deHIGH. Com base nessa configuração, sua grade de proteção bloqueará o conteúdo, mesmo que retorne a confiança LOW em sua avaliação.

Para entender esse comportamento (e garantir que seu aplicativo não bloqueie conteúdo que você não espera), você pode configurar a ação de política comoNONE. A resposta de rastreamento pode ter a seguinte aparência:

{ "assessments": [{ "contentPolicy": { "filters": [{ "action": "NONE", "confidence": "LOW", "detected": true, "filterStrength": "HIGH", "type": "VIOLENCE" }] } }] }

Isso permite que você visualize a avaliação do guardrail e veja se ela VIOLENCE foi detectada (true), mas nenhuma ação foi tomada porque você a configurou. NONE

Se você não quiser bloquear esse texto, você pode ajustar a intensidade do filtro para MEDIUM ou LOW refazer a avaliação. Depois de obter os resultados que está procurando, você pode atualizar sua ação política para BLOCK ouANONYMIZE.