Configura i filtri di contenuto per il tuo guardrail

Blocca parole e conversazioni dannose con i filtri dei contenuti

Amazon Bedrock Guardrails supporta filtri di contenuto per aiutare a rilevare e filtrare gli input dannosi degli utenti e gli output generati dal modello in linguaggio naturale. I filtri di contenuto sono supportati nelle seguenti categorie:

Odio

Descrive i suggerimenti di input e le risposte modello che discriminano, criticano, insultano, denunciano o disumanizzano una persona o un gruppo sulla base di un'identità (come razza, etnia, genere, religione, orientamento sessuale, abilità e origine nazionale).

Insulti

Descrive i suggerimenti di input e le risposte modello che includono un linguaggio umiliante, derisorio, offensivo o sminuente. Questo tipo di linguaggio è anche etichettato come bullismo.

Sessuale

Descrive i suggerimenti di input e le risposte modello che indicano interesse, attività o eccitazione sessuale utilizzando riferimenti diretti o indiretti a parti del corpo, tratti fisici o sesso.

Violenza

Descrive i suggerimenti di input e le risposte modello che includono la glorificazione o la minaccia di infliggere dolore fisico, ferite o lesioni a una persona, un gruppo o una cosa.

Cattiva condotta

Descrive i suggerimenti di input e le risposte modello che cercano o forniscono informazioni sul coinvolgimento in attività criminali o sul danneggiamento, la frode o lo sfruttamento di una persona, un gruppo o un'istituzione.

Configura i filtri di contenuto per il tuo guardrail

Puoi configurare i filtri dei contenuti per il tuo guardrail utilizzando l'API AWS Management Console o Amazon Bedrock.

Console

Accedi a AWS Management Console con un'identità IAM che dispone delle autorizzazioni per utilizzare la console Amazon Bedrock. Quindi, apri la console Amazon Bedrock in https://console.aws.amazon.com/bedrock.
Dal riquadro di navigazione a sinistra, scegli Guardrails, quindi scegli Crea guardrail.
Per fornire la pagina dei dettagli del guardrail, procedi come segue:
1. Nella sezione dei dettagli del guardrail, fornisci un nome e una descrizione opzionale per il guardrail.
2. Per Messaggi per richieste bloccate, inserisci un messaggio che viene visualizzato quando viene applicato il guardrail. Seleziona la casella di controllo Applica lo stesso messaggio bloccato alle risposte per utilizzare lo stesso messaggio quando il guardrail viene applicato alla risposta.
3. (Facoltativo) Per abilitare l'inferenza tra regioni per il tuo guardrail, espandi Inferenza interregionale, quindi seleziona Abilita inferenza interregionale per il tuo guardrail. Scegli un profilo guardrail che definisca la destinazione in cui possono essere instradate le richieste di inferenza del guardrail. Regioni AWS
4. (Facoltativo) Per impostazione predefinita, il guardrail è crittografato con un. Chiave gestita da AWS Per utilizzare la tua chiave KMS gestita dal cliente, espandi la selezione della chiave KMS e seleziona la casella di controllo Personalizza le impostazioni di crittografia (avanzate).
  
  Puoi selezionare una AWS KMS chiave esistente o selezionare Crea una chiave per crearne una AWS KMS nuova.
5. (Facoltativo) Per aggiungere tag al tuo guardrail, espandi Tag. Quindi seleziona Aggiungi nuovo tag per ogni tag che definisci.
  
  Per ulteriori informazioni, consulta Etichettare le risorse di Amazon Bedrock.
6. Scegli Next (Successivo).
Nella pagina Configura i filtri dei contenuti, imposta la forza con cui desideri filtrare i contenuti correlati alle categorie definite in Blocca parole e conversazioni dannose con i filtri dei contenuti procedendo come segue:
1. Seleziona Configura il filtro delle categorie dannose. Seleziona Testo e/o Immagine per filtrare il contenuto di testo o immagine dai prompt o dalle risposte al modello. Seleziona Nessuno, Basso, Medio o Alto per il livello di filtrazione che desideri applicare a ciascuna categoria. Puoi scegliere di avere diversi livelli di filtro per le richieste o le risposte. È possibile selezionare il filtro per gli attacchi rapidi nelle categorie dannose. Configura quanto rigoroso desideri che ogni filtro sia per i prompt che l'utente fornisce al modello.
2. Scegli Blocca o Rileva (nessuna azione) per determinare l'azione intrapresa dal guardrail quando rileva contenuti dannosi nei prompt e nelle risposte.
  
  Per ulteriori informazioni, consulta Opzioni per la gestione dei contenuti dannosi rilevati da Amazon Bedrock Guardrails.
3. Per Imposta soglia, seleziona Nessuno, Basso, Medio o Alto per il livello di filtrazione che desideri applicare a ciascuna categoria.
  
  Puoi scegliere di avere diversi livelli di filtro per i prompt e le risposte.
4. Per il livello dei filtri dei contenuti, scegli il livello di protezione che desideri che il guardrail utilizzi per filtrare i prompt e le risposte basati su testo. Per ulteriori informazioni, consulta Livelli di salvaguardia per le politiche di guardrail.
5. Scegli Avanti per configurare altre politiche in base alle esigenze o passa a Rivedi e crea per completare la creazione del tuo guardrail.
Controlla le impostazioni del tuo guardrail.
1. Seleziona Modifica in qualsiasi sezione a cui desideri apportare modifiche.
2. Al termine della configurazione delle politiche, seleziona Crea per creare il guardrail.

API

Configura i filtri di contenuto per il tuo guardrail inviando una richiesta. CreateGuardrail Il formato della richiesta è il seguente:


POST /guardrails HTTP/1.1
Content-type: application/json

{
   "blockedInputMessaging": "string",
   "blockedOutputsMessaging": "string",
   "contentPolicyConfig": { 
      "filtersConfig": [ 
         {
            "inputAction": "BLOCK | NONE",
            "inputModalities": [ "TEXT" ], 
            "inputStrength": "NONE | LOW | MEDIUM | HIGH",
            "outputStrength": "NONE | LOW | MEDIUM | HIGH",
            "type": "SEXUAL | VIOLENCE | HATE | INSULTS | MISCONDUCT"
         }
      ],
      "tierConfig": { 
         "tierName": "CLASSIC | STANDARD"
      }
   },
   "crossRegionConfig": { 
      "guardrailProfileIdentifier": "string"
   },
   "description": "string",
   "name": "string"
}

Specificare una name e description per il guardrail.
Specificate i messaggi che indicano quando il guardrail blocca correttamente un prompt o una risposta del modello nei campi and. blockedInputMessaging blockedOutputsMessaging
Specificate i livelli di filtraggio per le categorie dannose disponibili nell'oggetto. contentPolicyConfig

Ogni elemento dell'filtersConfigelenco appartiene a una categoria dannosa. Per ulteriori informazioni, consulta Blocca parole e conversazioni dannose con i filtri dei contenuti. Per ulteriori informazioni sui campi di un filtro di contenuti, consulta ContentFilter.
- (Facoltativo) Per inputAction eoutputAction, specifica l'azione intrapresa dal guardrail quando rileva contenuti dannosi nei prompt e nelle risposte.
- (Facoltativo) Specificate l'azione da intraprendere quando viene rilevato contenuto dannoso nei prompt utilizzati o nelle risposte utilizzando. inputAction outputAction Scegli BLOCK di bloccare i contenuti e sostituirli con messaggi bloccati oppure di non NONE intraprendere alcuna azione ma restituire informazioni di rilevamento. Per ulteriori informazioni, consulta Opzioni per la gestione dei contenuti dannosi rilevati da Amazon Bedrock Guardrails.
- Specificate l'efficacia del filtro per i prompt inputStrength sul campo e per le risposte del modello sul outputStrength campo.
- Specificate la categoria nel campo. type
(Facoltativo) Specificate un livello di protezione per il guardrail nell'tierConfigoggetto all'interno dell'contentPolicyConfigoggetto. Le opzioni includono i STANDARD livelli. CLASSIC

Per ulteriori informazioni, consulta Livelli di salvaguardia per le politiche di guardrail.
(Facoltativo) Per abilitare l'inferenza tra regioni, specificate un profilo di guardrail nell'oggetto. crossRegionConfig Questo è necessario quando si utilizza il livello. STANDARD

Il formato di risposta è simile al seguente:


HTTP/1.1 202
Content-type: application/json

{
   "createdAt": "string",
   "guardrailArn": "string",
   "guardrailId": "string",
   "version": "string"
}

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Configura i filtri dei contenuti

Filtri di contenuto (immagini)