Configurar filtros de conteúdo para Amazon Bedrock Guardrails - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Configurar filtros de conteúdo para Amazon Bedrock Guardrails

Com o Amazon Bedrock Guardrails, você pode configurar filtros de conteúdo para bloquear solicitações e respostas do modelo em linguagem natural para textos e imagens que contenham conteúdo prejudicial. Por exemplo, um site de comércio eletrônico pode criar seu assistente on-line para evitar o uso de linguagem e/ou imagens impróprias.

Classificação do filtro e níveis de bloqueio

A filtragem é feita com base na classificação de confiança das entradas do usuário e das respostas do FM em cada uma das seis categorias. Todas as entradas do usuário e respostas do FM são classificadas em quatro níveis de resistência: NONE, LOW, MEDIUM e HIGH. Por exemplo, se uma declaração for classificada como Ódio com confiança HIGH, a probabilidade dessa declaração representar conteúdo de ódio é alta. Uma única declaração pode ser classificada em várias categorias com níveis de confiança variados. Por exemplo, uma única declaração pode ser classificada como Ódio com confiança HIGH, Insultos com confiança LOW, Sexual com NONE e Violência com confiança MEDIUM.

Intensidade do filtro

Você pode configurar a força dos filtros para cada uma das categorias de filtro de conteúdo. A intensidade do filtro determina a sensibilidade da filtragem de conteúdo prejudicial. À medida que a intensidade do filtro aumenta, a probabilidade de filtrar conteúdo prejudicial aumenta, e a probabilidade de ver conteúdo prejudicial na aplicação diminui.

Você tem quatro níveis de intensidade de filtro

  • Nenhum: não há filtros de conteúdo aplicados. Todas as entradas do usuário e saídas geradas pelo FM são permitidas.

  • Baixo: a intensidade do filtro é baixa. O conteúdo classificado como prejudicial com confiança HIGH será filtrado. O conteúdo classificado como prejudicial com confiança NONE, LOW ou MEDIUM será permitido.

  • Médio: o conteúdo classificado como prejudicial com confiança HIGH e MEDIUM será filtrado. O conteúdo classificado como prejudicial com confiança NONE ou LOW será permitido.

  • Alto: esse representa a configuração de filtragem mais rigorosa. O conteúdo classificado como prejudicial com confiança HIGH, MEDIUM e LOW será filtrado. Conteúdo considerado inofensivo será permitido.

Intensidade do filtro Confiança de conteúdo bloqueado Confiança de conteúdo permitido
Nenhum Sem filtragem Nenhum, Baixo, Médio, Alto
Baixo Alto Nenhum, Baixo, Médio
Médio Alto, Médio Nenhum, Baixo
Alto Alto, Médio, Baixo Nenhum