Opções para lidar com conteúdo nocivo detectado pelas Barreiras de Proteção do Amazon Bedrock - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Opções para lidar com conteúdo nocivo detectado pelas Barreiras de Proteção do Amazon Bedrock

É possível configurar quais ações a barreira de proteção do Amazon Bedrock executa em runtime ao detectar conteúdo nocivo em prompts (inputAction) e respostas (outputAction).

As políticas de filtragem de barreiras de proteção permitem as seguintes ações quando é detectado conteúdo nocivo nas entradas e respostas do modelo:

  • Bloquear: bloqueie o conteúdo e substitua-o por mensagens bloqueadas.

  • Mascarar: torne o conteúdo anônimo e substitua-o por tags identificadoras (como {NAME} ou {EMAIL}).

    Essa opção está disponível somente em filtros de informações sensíveis. Para obter mais informações, consulte Remova as PII das conversas usando filtros de informações confidenciais.

  • Detectar: nenhuma ação é executada, mas exibe o que a barreira de proteção detecta na resposta de rastreamento. Use essa opção, conhecida como modo de detecção, para ajudar a avaliar se a barreira de proteção está funcionando da maneira esperada.

Avaliação da barreira de proteção com o modo de detecção

As políticas das Barreiras de Proteção do Amazon Bedrock permitem o modo de detecção, que possibilita avaliar o desempenho da barreira de proteção sem aplicar nenhuma ação (como bloquear o conteúdo).

O uso do modo de detecção oferece os seguintes benefícios:

  • Testar diferentes combinações e pontos fortes das políticas de barreira de proteção sem afetar a experiência do cliente.

  • Analisar todos os falso-positivos ou negativos e ajustar as configurações de política de acordo.

  • Implantar a barreira de proteção somente depois de confirmar se ela funciona conforme o esperado.

Exemplo: usar o modo de detecção para avaliar filtros de conteúdo

Por exemplo, vamos supor que você configure uma política com uma intensidade HIGH de filtro de conteúdo. Com base nessa configuração, a barreira de proteção bloqueará o conteúdo, mesmo que exiba uma confiança LOW na avaliação.

Para entender esse comportamento (e garantir que a aplicação não bloqueie conteúdo que você não espera), é possível configurar a ação de política como NONE. A política de confiança pode ser semelhante à seguinte:

{ "assessments": [{ "contentPolicy": { "filters": [{ "action": "NONE", "confidence": "LOW", "detected": true, "filterStrength": "HIGH", "type": "VIOLENCE" }] } }] }

Isso permite que você pré-visualize a avaliação da barreira de proteção e veja se VIOLENCE foi detectada (true) e nenhuma ação foi realizada porque você a configurou como NONE.

Se você não quiser bloquear esse texto, poderá ajustar a intensidade do filtro como MEDIUM ou LOW e refazer a avaliação. Depois de obter os resultados que está procurando, você pode atualizar a ação da política para BLOCK ou ANONYMIZE.