As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Bloquear palavras e conversas prejudiciais com filtros de conteúdo
O Amazon Bedrock Guardrails oferece suporte a filtros de conteúdo para ajudar a detectar e filtrar entradas nocivas de usuários e saídas geradas por modelos em linguagem natural, bem como conteúdo relacionado a códigos no nível Standard. Os filtros de conteúdo podem ser usados nas seguintes categorias:
Ódio
-
Descreve prompts de entrada e respostas do modelo que discriminam, criticam, insultam, denunciam ou desumanizam uma pessoa ou grupo com base em uma identidade (como raça, etnia, gênero, religião, orientação sexual, capacidade e origem nacional).
Insulto
-
Descreve prompts de entrada e respostas do modelo que incluem linguagem degradante, humilhante, zombadora, insultante ou depreciativa. Esse tipo de linguagem também é chamado de bullying.
Sexual
Violência
Má conduta
-
Descreve prompts de entrada e respostas do modelo que buscam ou fornecem informações sobre o envolvimento em atividades criminosas ou que visem prejudicar, fraudar ou tirar proveito de uma pessoa, grupo ou instituição.
Configurar filtros de conteúdo para sua barreira de proteção
Você pode configurar filtros de conteúdo para sua grade de proteção usando a API Amazon Bedrock ou Console de gerenciamento da AWS Amazon Bedrock.
- Console
-
Faça login no Console de gerenciamento da AWS com uma identidade do IAM que tenha permissões para usar o console Amazon Bedrock. Em seguida, abra o console Amazon Bedrock em https://console.aws.amazon.com/bedrock.
-
No painel de navegação à esquerda, escolha Barreiras de proteção e selecione Criar uma barreira de proteção.
-
Na página Fornecer detalhes da barreira de proteção, faça o seguinte:
-
Na seção Detalhes da barreira de proteção, forneça um Nome e uma Descrição opcional para a barreira de proteção.
-
Em Mensagens para prompts bloqueados, insira uma mensagem que exibida quando a barreira de proteção é aplicada. Marque a caixa de seleção Aplicar a mesma mensagem bloqueada para respostas para usar a mesma mensagem quando a barreira de proteção for aplicada na resposta.
-
(Opcional) Para habilitar a inferência entre regiões para a barreira de proteção, expanda Inferência entre regiões e selecione Habilitar inferência entre regiões para sua barreira de proteção. Escolha um perfil de barreira de proteção que defina as Regiões da AWS de destino para as quais as solicitações de inferência de barreira de proteção podem ser roteadas.
-
(Opcional) Por padrão, sua grade de proteção é criptografada com um. Chave gerenciada pela AWS Para usar sua própria chave do KMS gerenciada pelo cliente, expanda Seleção da chave do KMS e marque a caixa de seleção Personalizar configurações de criptografia (avançadas).
Você pode selecionar uma AWS KMS chave existente ou selecionar Criar uma AWS KMS chave para criar uma nova.
-
(Opcional) Para adicionar tags à barreira de proteção, expanda Tags. Em seguida, selecione Adicionar nova tag para cada tag a ser definida.
Para obter mais informações, consulte Marcação de recursos do Amazon Bedrock.
-
Escolha Próximo.
-
Na página Configurar filtros de conteúdo, configure com que intensidade você deseja filtrar o conteúdo relacionado às categorias definidas em Bloquear palavras e conversas prejudiciais com filtros de conteúdo fazendo o seguinte:
-
Selecione Configurar filtro de categorias nocivas. Selecione Texto e/ou Imagem para filtrar o conteúdo de texto ou imagem proveniente de prompts ou respostas ao modelo. Selecione Nenhum, Baixo, Médio ou Alto para o nível de filtragem que você deseja aplicar a cada categoria. Você pode optar por ter diferentes níveis de filtro para prompts ou respostas. É possível selecionar o filtro de ataques de prompt nas categorias prejudiciais. Configure o rigor de cada filtro para prompts que o usuário fornece ao modelo.
-
Escolha Bloquear ou Detectar (nenhuma ação) para determinar qual ação a barreira de proteção deve executar ao detectar conteúdo nocivo em prompts e respostas.
Para obter mais informações, consulte Opções para lidar com conteúdo nocivo detectado pelas Barreiras de Proteção do Amazon Bedrock.
-
Em Definir limite, selecione Nenhum, Baixo, Médio ou Alto para o nível de filtragem que você deseja aplicar a cada categoria.
Você pode optar por ter diferentes níveis de filtro para prompts e respostas.
-
Em Nível de filtros de conteúdo, escolha o nível de proteção que você deseja que a barreira de proteção use para filtrar prompts e respostas baseadas em texto. Para obter mais informações, consulte Níveis de proteção para políticas de barreira de proteção.
-
Escolha Próximo para configurar outras políticas conforme necessário ou Pular para revisar e criar para finalizar a criação da barreira de proteção.
-
Analise as configurações da barreira de proteção.
-
Selecione Editar em qualquer seção na qual desejar fazer alterações.
-
Quando terminar de configurar as políticas, selecione Criar para criar a barreira de proteção.
- API
-
Configure filtros de conteúdo para sua grade de proteção enviando uma CreateGuardrailsolicitação. O formato da solicitação é o seguinte:
POST /guardrails HTTP/1.1
Content-type: application/json
{
"blockedInputMessaging": "string",
"blockedOutputsMessaging": "string",
"contentPolicyConfig": {
"filtersConfig": [
{
"inputAction": "BLOCK | NONE",
"inputModalities": [ "TEXT" ],
"inputStrength": "NONE | LOW | MEDIUM | HIGH",
"outputStrength": "NONE | LOW | MEDIUM | HIGH",
"type": "SEXUAL | VIOLENCE | HATE | INSULTS | MISCONDUCT"
}
],
"tierConfig": {
"tierName": "CLASSIC | STANDARD"
}
},
"crossRegionConfig": {
"guardrailProfileIdentifier": "string"
},
"description": "string",
"name": "string"
}
-
Especifique um name e uma description para a barreira de proteção.
-
Especifique mensagens para quando a barreira de proteção bloquear um prompt ou uma resposta do modelo com sucesso nos campos blockedInputMessaging e blockedOutputsMessaging.
-
Especifique a intensidade dos filtros para as categorias nocivas disponíveis no objeto contentPolicyConfig.
Cada item da lista de filtersConfig pertence a uma categoria prejudicial. Para obter mais informações, consulte Bloquear palavras e conversas prejudiciais com filtros de conteúdo. Para obter mais informações sobre os campos em um filtro de conteúdo, consulte ContentFilter.
-
(Opcional) Em inputAction eoutputAction, especifique a ação que a barreira de proteção deve executar ao detectar conteúdo nocivo em prompts e respostas.
-
(Opcional) Use inputAction ou outputAction para especificar a ação a ser executada quando for detectado conteúdo nocivo em prompts ou em respostas, respectivamente. Escolha BLOCK para bloquear o conteúdo e substituí-lo por mensagens bloqueadas ou NONE para não executar nenhuma ação além de exibir as informações de detecção. Para obter mais informações, consulte Opções para lidar com conteúdo nocivo detectado pelas Barreiras de Proteção do Amazon Bedrock.
-
Especifique a intensidade do filtro para prompts no campo inputStrength e para respostas do modelo no campo outputStrength.
-
Especifique a categoria no campo type.
-
(Opcional) Especifique um nível de proteção para a barreira de proteção no objeto tierConfig dentro do objeto contentPolicyConfig. As opções incluem os níveis CLASSIC e STANDARD.
Para obter mais informações, consulte Níveis de proteção para políticas de barreira de proteção.
-
(Opcional) Para habilitar a inferência entre regiões, especifique um perfil de barreira de proteção no objeto crossRegionConfig. Isso é necessário ao usar o nível STANDARD.
O formato da resposta é semelhante a este:
HTTP/1.1 202
Content-type: application/json
{
"createdAt": "string",
"guardrailArn": "string",
"guardrailId": "string",
"version": "string"
}