Detectar e filtrar conteúdo nocivo usando as Barreiras de Proteção do Amazon Bedrock

O Amazon Bedrock Guardrails fornece proteções configuráveis para ajudar você a criar aplicativos seguros de IA generativa. Com controles abrangentes de segurança e privacidade em todos os modelos básicos (FMs), o Amazon Bedrock Guardrails oferece uma experiência de usuário consistente para ajudar a detectar e filtrar conteúdo indesejável e proteger informações confidenciais que possam estar presentes nas entradas do usuário ou nas respostas do modelo (excluindo blocos de conteúdo de raciocínio).

Você pode usar o Amazon Bedrock Guardrails em vários casos de uso e aplicativos. Abaixo estão alguns exemplos:

Um aplicativo de chatbot para ajudar a filtrar entradas nocivas de usuários e respostas tóxicas de modelos.
Um aplicativo bancário para ajudar a bloquear consultas de usuários ou modelar respostas associadas à busca ou fornecimento de conselhos sobre investimentos ilegais.
Uma aplicação de central de atendimento para resumir as transcrições de conversas entre usuários e atendentes pode usar barreiras de proteção para omitir informações de identificação pessoal (PII) dos usuários e proteger a privacidade do usuário.

O Amazon Bedrock Guardrails fornece as seguintes proteções (também conhecidas como filtros) para detectar e filtrar conteúdo indesejável:

Filtros de conteúdo — Esse filtro ajuda a detectar e filtrar conteúdo de texto ou imagem nocivo nas solicitações de entrada ou nas respostas do modelo. A filtragem é feita com base na detecção de determinadas categorias predefinidas de conteúdo nocivo, como ódio, insultos, sexo, violência, má conduta e ataque de prompt. Você pode configurar a intensidade do filtro para cada uma dessas categorias com base em seus casos de uso. Essas categorias são compatíveis com os níveis Clássico e Padrão. Com o nível Padrão, a detecção de conteúdo indesejável é estendida à proteção contra conteúdo nocivo introduzido em elementos de código, incluindo comentários, nomes de variáveis e funções e literais de seqüências de caracteres.
Tópicos negados — Você pode definir um conjunto de tópicos indesejáveis no contexto do seu aplicativo. O filtro ajudará a bloqueá-los se detectados em consultas do usuário ou nas respostas do modelo. Com o nível Padrão, a detecção de conteúdo indesejável é estendida à proteção contra conteúdo nocivo introduzido em elementos de código, incluindo comentários, variáveis e nomes de funções e literais de seqüências de caracteres.
Filtros de palavras — Você pode definir um conjunto de palavras ou frases personalizadas (correspondência exata) que deseja bloquear na interação entre usuários finais e aplicativos generativos de IA. Por exemplo, você pode bloquear palavrões (use uma ready-to-use opção), bem como palavras personalizadas, como nomes de concorrentes.
Filtros de informações confidenciais — Você pode configurar esse filtro para ajudar a bloquear ou mascarar informações confidenciais, como informações de identificação pessoal (PII), nas entradas do usuário e nas respostas do modelo. O bloqueio ou mascaramento é feito com base na detecção probabilística de informações confidenciais em entidades como número SSN, data de nascimento, endereço, etc. Esse filtro também permite configurar a detecção de padrões baseada em expressões regulares (regex personalizado).
Verificações contextuais de aterramento — Esse filtro ajuda a detectar alucinações nas respostas do modelo se elas não estiverem fundamentadas (factualmente imprecisas ou adicionarem novas informações) na fonte ou forem irrelevantes para a consulta do usuário. Por exemplo, você pode bloquear ou sinalizar respostas em aplicativos de geração aumentada de recuperação (RAG). Se as respostas do modelo se desviarem das informações na fonte recuperada ou não responderem à pergunta do usuário.
Verificações automatizadas de raciocínio — Esse filtro ajuda a validar a precisão das respostas do modelo básico em relação a um conjunto de regras lógicas. Você pode usar as verificações com raciocínio automatizado para detectar alucinações, sugerir correções e destacar suposições implícitas nas respostas do modelo.

Além dos filtros acima, você também pode configurar as mensagens a serem retornadas ao usuário se uma entrada do usuário ou uma resposta do modelo violar os filtros definidos na grade de proteção.

Experimente diferentes configurações e use a janela de teste integrada para garantir que os resultados atendam aos requisitos de seu caso de uso. Ao criar uma barreira de proteção, um rascunho de trabalho fica automaticamente disponível para modificação de forma iterativa. Experimente diferentes configurações e use a janela de teste integrada para ver se elas são adequadas para seu caso de uso. Se estiver o conjunto de configurações estiver adequado, você poderá criar uma versão da barreira de proteção e usá-la com modelos de base compatíveis.

Os guardrails podem ser usados diretamente FMs durante a invocação da API de inferência, especificando o ID do guardrail e a versão. As barreiras de proteção também podem ser usadas diretamente por meio da API ApplyGuardrail sem invocar os modelos de base. Se uma grade de proteção for usada, ela avaliará os prompts de entrada e as conclusões de FM em relação aos filtros definidos.

Para aplicativos de geração aumentada de recuperação (RAG) ou de conversação, talvez seja necessário avaliar somente as solicitações de entrada do usuário e descartar instruções do sistema, resultados de pesquisa, histórico de conversas ou alguns exemplos curtos. Para avaliar seletivamente uma seção da solicitação de entrada, consulte Aplicar tags à entrada do usuário para filtrar conteúdo A capacidade de avaliar somente uma seção da solicitação de entrada está disponível por meio do SDK da AWS e não está disponível no console de gerenciamento, incluindo o Bedrock Playground e o console de gerenciamento do Bedrock Guardrails.

Tópicos

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Segurança de injeção de prompt

Visão geral do