Detectar e filtrar conteúdo nocivo usando as Barreiras de Proteção do Amazon Bedrock - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Detectar e filtrar conteúdo nocivo usando as Barreiras de Proteção do Amazon Bedrock

As Barreiras de Proteção do Amazon Bedrock oferecem proteções que você pode configurar para aplicações de IA generativa com base em seus casos de uso e políticas de IA responsável. Você pode criar várias grades de proteção personalizadas para diferentes casos de uso e aplicá-las em vários modelos básicos (FMs), fornecendo uma experiência de usuário consistente e padronizando os controles de segurança e privacidade em aplicativos generativos de IA. É possível usar barreiras de proteção para prompts e respostas do modelo em linguagem natural.

Você pode usar as Barreiras de Proteção do Amazon Bedrock de várias maneiras para ajudar a proteger aplicações de IA generativa. Por exemplo:

  • Uma aplicação de chatbot pode usar barreiras de proteção para ajudar a filtrar entradas prejudiciais de usuários e respostas tóxicas de modelos.

  • Uma aplicação bancária pode usar barreiras de proteção para ajudar a bloquear consultas de usuários ou respostas de modelos associadas à busca ou ao fornecimento de consultoria em investimentos.

  • Uma aplicação de central de atendimento para resumir as transcrições de conversas entre usuários e atendentes pode usar barreiras de proteção para omitir informações de identificação pessoal (PII) dos usuários e proteger a privacidade do usuário.

As Barreiras de Proteção do Amazon Bedrock oferecem as seguintes proteções (também conhecidas como políticas) para detectar e filtrar conteúdo nocivo:

  • Filtros de conteúdo: detecte e filtre conteúdo de texto ou imagem nocivo nos prompts de entrada ou nas respostas do modelo. A filtragem é feita com base na detecção de determinadas categorias predefinidas de conteúdo nocivo, como ódio, insultos, sexo, violência, má conduta e ataque de prompt. Também é possível ajustar a intensidade do filtro para cada uma dessas categorias. Essas categorias são compatíveis com os níveis Clássico e Padrão. Com o nível Padrão, a detecção de conteúdo indesejável é estendida à proteção contra conteúdo nocivo introduzido em elementos de código, incluindo comentários, nomes de variáveis e funções e literais de seqüências de caracteres.

  • Tópicos negados: defina um conjunto de tópicos que não são desejáveis no contexto da sua aplicação. O filtro ajudará a bloqueá-los se detectados em consultas do usuário ou nas respostas do modelo. Com o nível Padrão, a detecção de conteúdo indesejável é estendida à proteção contra conteúdo nocivo introduzido em elementos de código, incluindo comentários, variáveis e nomes de funções e literais de seqüências de caracteres.

  • Filtros de palavras: configure filtros para ajudar a bloquear palavras, frases e palavrões indesejáveis (correspondência exata). Essas palavras podem incluir termos ofensivos, nomes de concorrentes etc.

  • Filtros de informações confidenciais: configure filtros para ajudar a bloquear ou mascarar informações confidenciais, como informações de identificação pessoal (PII) ou expressões regulares personalizadas nas entradas de usuário e nas respostas do modelo. O bloqueio ou mascaramento é feito com base na detecção probabilística de informações sensíveis em formatos padrão em entidades como CPF, data de nascimento, endereço etc. Isso também permite configurar a detecção de padrões baseada em expressões regulares para identificadores.

  • Verificações de base contextual: ajude a detectar e filtrar alucinações nas respostas do modelo de acordo com uma fonte de base e a relevância para a consulta do usuário.

  • Verificações com raciocínio automatizado: podem ajudar a validar a precisão das respostas do modelo de base em relação a um conjunto de regras lógicas. Você pode usar as verificações com raciocínio automatizado para detectar alucinações, sugerir correções e destacar suposições implícitas nas respostas do modelo.

Além das políticas acima, você também pode configurar as mensagens a serem retornadas ao usuário se uma entrada do usuário ou uma resposta do modelo violar as políticas definidas na barreira de proteção.

Experimente diferentes configurações e use a janela de teste integrada para garantir que os resultados atendam aos requisitos de seu caso de uso. Ao criar uma barreira de proteção, um rascunho de trabalho fica automaticamente disponível para modificação de forma iterativa. Experimente diferentes configurações e use a janela de teste integrada para ver se elas são adequadas para seu caso de uso. Se estiver o conjunto de configurações estiver adequado, você poderá criar uma versão da barreira de proteção e usá-la com modelos de base compatíveis.

Os guardrails podem ser usados diretamente FMs durante a invocação da API de inferência, especificando o ID do guardrail e a versão. As barreiras de proteção também podem ser usadas diretamente por meio da API ApplyGuardrail sem invocar os modelos de base. Se uma barreira de proteção for usada, ela avaliará os prompts de entrada e as conclusões do FM em relação às políticas definidas.

Para aplicações de geração aumentada via recuperação (RAG) ou de conversas, talvez seja necessário avaliar somente a entrada do usuário no prompt de entrada e descartar instruções do sistema, resultados de pesquisa, histórico de conversas ou alguns exemplos curtos. Para avaliar seletivamente uma seção do prompt de entrada, consulte Aplicar tags à entrada do usuário para filtrar conteúdo.