As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Crie seu guarda-corpo
O Amazon Bedrock Guardrails consiste em uma coleção de diferentes políticas de filtragem que podem ser configuradas para ajudar a evitar conteúdo indesejável e prejudicial e remover ou mascarar informações confidenciais para proteção de privacidade.
É possível configurar as seguintes políticas em uma barreira de proteção:
Filtros de conteúdo — você pode configurar limites para ajudar a bloquear solicitações de entrada ou modelar respostas em linguagem natural para texto e separadamente para imagens que contenham conteúdo prejudicial, como: ódio, insultos, sexo, violência, má conduta (incluindo atividades criminosas) e ataques imediatos (injeção imediata e jailbreaks). Por exemplo, um site de comércio eletrônico pode criar seu assistente on-line para evitar o uso de and/or imagens de linguagem imprópria, como ódio ou violência.
-
Ataques imediatos — Pode ajudá-lo a detectar e filtrar ataques imediatos e injeções imediatas. Ajuda a detectar avisos destinados a ignorar a moderação, substituir instruções ou gerar conteúdo prejudicial.
Tópicos negados: é possível definir um conjunto de tópicos a serem evitados em sua aplicação de IA generativa. Por exemplo, uma aplicação de assistente bancário pode ser criada para ajudar a evitar tópicos relacionados a consultoria de investimento ilegal.
Filtros de palavras — Você pode configurar um conjunto de palavras ou frases personalizadas (correspondência exata) que deseja detectar e bloquear na interação entre seus usuários e aplicativos generativos de IA. Por exemplo, é possível detectar e bloquear palavrões, bem como palavras personalizadas específicas, como nomes de concorrentes ou outras palavras ofensivas.
Filtros de informações confidenciais — podem ajudá-lo a detectar conteúdo confidencial, como informações de identificação pessoal (PII) em formatos padrão ou entidades de regex personalizadas nas entradas do usuário e nas respostas FM. Com base no caso de uso, é possível rejeitar entradas que contenham informações confidenciais ou editá-las nas respostas do FM. Por exemplo, é possível editar as informações pessoais dos usuários ao gerar resumos de transcrições de conversas com clientes e agentes.
Verificações contextuais de fundamentação — podem ajudá-lo a detectar e filtrar alucinações nas respostas do modelo se elas não estiverem fundamentadas (factualmente imprecisas ou adicionarem novas informações) nas informações de origem ou forem irrelevantes para a consulta do usuário. Por exemplo, é possível bloquear ou sinalizar respostas em aplicações RAG (geração aumentada de recuperação), se as respostas do modelo se desviarem das informações nas passagens recuperadas ou não responderem à pergunta do usuário.
Verificações automatizadas de raciocínio — podem ajudá-lo a validar se as respostas do modelo seguem as regras e políticas lógicas que você define. Você pode criar políticas usando linguagem natural que especifique os requisitos de raciocínio, e a grade de proteção avaliará se as saídas do modelo estão em conformidade com essas restrições lógicas. Por exemplo, você pode garantir que um chatbot de atendimento ao cliente recomende apenas produtos que estejam realmente disponíveis no estoque ou verificar se a consultoria financeira segue as regras de conformidade regulatória.
nota
Todo o conteúdo bloqueado das políticas acima aparecerá como texto simples nos registros de invocação do modelo Amazon Bedrock, se você os tiver ativado. Você pode desativar os registros de invocação do Amazon Bedrock se não quiser que seu conteúdo bloqueado apareça como texto simples nos registros.
Uma barreira de proteção deve conter pelo menos um filtro e mensagens para quando os prompts e as respostas ao usuário forem bloqueados. É possível optar por usar as mensagens padrão. Você pode adicionar filtros e iterar em sua grade de proteção posteriormente, seguindo as etapas em. Modifique sua grade de proteção
Tópicos
Configurar filtros de conteúdo para Amazon Bedrock Guardrails
Bloquear tópicos negados para ajudar a remover conteúdo prejudicial
Remover uma lista específica de palavras e frases das conversas com filtros de palavras
Remova as PII das conversas usando filtros de informações confidenciais
Usar a verificação de base contextual para filtrar alucinações nas respostas
Opções para lidar com conteúdo nocivo detectado pelo Amazon Bedrock Guardrails