Criar uma barreira de proteção - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Criar uma barreira de proteção

O Amazon Bedrock Guardrails oferece filtros que você pode configurar para ajudar a evitar conteúdo indesejável e prejudicial e remover ou mascarar informações confidenciais para proteção de privacidade.

Você pode configurar os seguintes filtros com o Amazon Bedrock Guardrails:

  • Filtros de conteúdo — Esse filtro ajuda a detectar e filtrar conteúdo de texto ou imagem nocivo nas solicitações de entrada ou nas respostas do modelo (excluindo conteúdo de raciocínio). A filtragem é feita com base na detecção de determinadas categorias predefinidas de conteúdo nocivo, como ódio, insultos, sexo, violência, má conduta e ataque de prompt. Você pode configurar a intensidade do filtro para cada uma dessas categorias com base em seus casos de uso. Com o nível Padrão, a detecção de conteúdo indesejável é estendida para proteger contra conteúdo nocivo em elementos de código, incluindo comentários, nomes de variáveis e funções e literais de seqüências de caracteres.

  • Ataques imediatos — Oferecido como uma categoria dentro dos filtros de conteúdo, esse filtro pode ajudá-lo a detectar e filtrar ataques imediatos, incluindo jailbreaks, injeções imediatas e vazamentos imediatos (somente no nível Standard). Esse recurso ajuda a detectar avisos destinados a ignorar a moderação do conteúdo, substituir instruções ou gerar conteúdo prejudicial.

  • Tópicos negados: é possível definir um conjunto de tópicos a serem evitados em sua aplicação de IA generativa. Por exemplo, uma aplicação de assistente bancário pode ser criada para ajudar a evitar tópicos relacionados a consultoria de investimento ilegal. Com o nível Standard, os filtros de conteúdo se estendem aos domínios de código.

  • Filtros de palavras — Você pode definir um conjunto de palavras ou frases personalizadas (correspondência exata) que deseja detectar e bloquear na interação entre seus usuários e aplicativos generativos de IA. Por exemplo, você pode detectar e bloquear palavrões (usando uma ready-to-use opção), bem como palavras personalizadas específicas, como nomes de concorrentes ou outras palavras ofensivas.

  • Filtros de informações sensíveis: podem ajudar a detectar conteúdo sensível, como informações de identificação pessoal (PII), em formatos padrão ou entidades de regex personalizadas nas entradas do usuário e nas respostas do FM. Esse filtro é uma solução baseada em aprendizado de máquina probabilístico (ML) que depende do contexto. Ele detecta informações confidenciais com base no contexto nas solicitações de entrada ou nas respostas do modelo. Com base no seu caso de uso, você pode bloquear ou mascarar entradas e respostas contendo informações confidenciais. Por exemplo, é possível editar as informações pessoais dos usuários ao gerar resumos de transcrições de conversas com clientes e agentes.

  • Verificações de base contextual: podem ajudar a detectar e filtrar alucinações nas respostas do modelo se elas não estiverem fundamentadas (factualmente imprecisas ou adicionarem novas informações) nas informações de origem ou forem irrelevantes para a consulta do usuário. Por exemplo, você pode bloquear ou sinalizar respostas em aplicativos RAG (geração aumentada de recuperação), se as respostas do modelo se desviarem das informações nas passagens recuperadas ou não responderem à pergunta do usuário.

  • Verificações com raciocínio automatizado: pode ajudar a validar se as respostas do modelo seguem políticas e regras lógicas que você define. Você pode criar políticas usando linguagem natural que especifique os requisitos de raciocínio, e as verificações automatizadas de raciocínio avaliarão se as saídas do modelo estão em conformidade com essas restrições lógicas. Por exemplo, você pode garantir que um chatbot de atendimento ao cliente recomende apenas produtos que estejam disponíveis no inventário ou verificar se a consultoria financeira segue as regras de conformidade regulatória.

nota

Todo o conteúdo bloqueado das políticas acima aparecerá como texto simples nos logs de invocação do modelo do Amazon Bedrock, se você os tiver habilitado. Você pode desabilitar os logs de invocação do Amazon Bedrock se não quiser que seu conteúdo bloqueado apareça como texto simples nos logs.

Uma barreira de proteção deve conter pelo menos um filtro e mensagens para quando os prompts e as respostas ao usuário forem bloqueados. É possível optar por usar as mensagens padrão. É possível adicionar filtros e iterar na barreira de proteção posteriormente, seguindo as etapas em Modificar a barreira de proteção.