Bloccare parole e conversazioni dannose con i filtri dei contenuti - Amazon Bedrock

Bloccare parole e conversazioni dannose con i filtri dei contenuti

Guardrail per Amazon Bedrock supporta filtri dei contenuti per aiutare a rilevare e filtrare gli input dannosi degli utenti e gli output generati dal modello in linguaggio naturale. I filtri dei contenuti sono supportati nelle seguenti categorie:

Odio

  • Si riferisce a prompt di input e risposte del modello che discriminano, criticano, insultano, denunciano o disumanizzano una persona o un gruppo sulla base di un’identità (come razza, etnia, genere, religione, orientamento sessuale, abilità e origine nazionale).

Insulti

  • Si riferisce a prompt di input e risposte del modello che includono linguaggio umiliante, denigratorio, derisorio, insultante o sminuente. Questo tipo di linguaggio è anche etichettato come bullismo.

Sessuale

  • Si riferisce a prompt di input e risposte del modello che indicano interesse, attività o eccitazione sessuale utilizzando riferimenti diretti o indiretti a parti del corpo, tratti fisici o sesso.

Violenza

  • Si riferisce a prompt di input e risposte del modello che contengono l’esaltazione o la minaccia di causare dolore fisico, danno o lesioni a un individuo, un gruppo o un oggetto.

Cattiva condotta

  • Si riferisce a prompt di input e le risposte del modello che cercano o forniscono informazioni relative al coinvolgimento in attività criminali, al danneggiamento, alla frode o allo sfruttamento di un individuo, un gruppo o una istituzione.

Configurare i filtri dei contenuto per il guardrail

Per configurare i filtri dei contenuti per il guardrail, utilizzare la Console di gestione AWS o l’API Amazon Bedrock.

Console
  1. Accedi alla Console di gestione AWS con un’identità IAM che disponga delle autorizzazioni per utilizzare la console Amazon Bedrock. Quindi, apri la console Amazon Bedrock all’indirizzo https://console.aws.amazon.com/bedrock.

  2. Nel riquadro di navigazione a sinistra, scegli Guardrail e poi Crea guardrail.

  3. Nella pagina Fornisci i dettagli del guardrail, procedi come segue:

    1. Nella sezione Dettagli del guardrail, fornisci un nome e una descrizione facoltativa per il guardrail.

    2. Per Messaggi relativi ai prompt bloccati, inserisci un messaggio che viene visualizzato quando viene applicato il guardrail. Seleziona la casella di controllo Applica lo stesso messaggio bloccato per le risposte per utilizzare lo stesso messaggio quando il guardrail viene applicato alla risposta.

    3. (Facoltativo) Per abilitare l’inferenza interregionale per il guardrail, espandi Inferenza interregionale, quindi seleziona Abilita inferenza interregionale per il tuo guardrail. Scegli un profilo del guardrail che definisca le Regioni AWS di destinazione in cui instradare le richieste di inferenza del guardrail.

    4. (Facoltativo) Per impostazione predefinita, il guardrail è crittografato con una Chiave gestita da AWS. Per utilizzare la tua chiave KMS gestita dal cliente, espandi Selezione chiave KMS e seleziona la casella di controllo Personalizza impostazioni di crittografia (avanzate).

      Puoi selezionare una chiave AWS KMS esistente oppure selezionare Crea una chiave AWS KMS per crearne una nuova.

    5. (Facoltativo) Per aggiungere tag al guardrail, espandi Tag. Quindi seleziona Aggiungi nuovo tag per ogni tag che definisci.

      Per ulteriori informazioni, consulta Assegnazione di tag alle risorse Amazon Bedrock.

    6. Scegli Avanti.

  4. Nella pagina Configura i filtri dei contenuti, imposta l’intensità con cui vuoi filtrare i contenuti correlati alle categorie definite in Bloccare parole e conversazioni dannose con i filtri dei contenuti procedendo come segue:

    1. Seleziona Configura il filtro delle categorie dannose. Seleziona Testo e/o Immagine per filtrare i contenuti di testo o immagine dai prompt o dalle risposte al modello. Seleziona Nessuno, Basso, Medio o Alto per il livello di filtro che vuoi applicare a ciascuna categoria. Puoi scegliere di avere livelli di filtro diversi per i prompt o le risposte. Puoi selezionare il filtro per gli attacchi tramite prompt nelle categorie dannose. Configura l’intensità desiderata per ogni filtro dei prompt che l’utente invia al modello.

    2. Scegli Blocca o Rileva (nessuna azione) per determinare quale azione intraprende il guardrail quando rileva contenuti dannosi nei prompt e nelle risposte.

      Per ulteriori informazioni, consulta Opzioni per la gestione dei contenuti dannosi rilevati da Guardrail per Amazon Bedrock.

    3. Per Seleziona soglia, seleziona Nessuno, Basso, Medio o Alto per il livello di filtro che vuoi applicare a ciascuna categoria.

      Puoi scegliere di avere livelli di filtro diversi per i prompt e le risposte.

    4. Per Livello dei filtri dei contenuti, scegli il livello di protezione che vuoi che il guardrail utilizzi per filtrare prompt e risposte basati su testo. Per ulteriori informazioni, consulta Livelli di protezione per le policy dei guardrail.

    5. Scegli Avanti per configurare le altre policy in base alle tue necessità o Passa a Rivedi e crea per completare la creazione del guardrail.

  5. Rivedi le impostazioni del guardrail.

    1. Seleziona Modifica in qualsiasi sezione a cui vuoi apportare modifiche.

    2. Al termine della configurazione delle policy, seleziona Crea per creare il guardrail.

API

Per configurare i filtri dei contenuti per il guardrail, invia una richiesta CreateGuardrail. Il formato della richiesta è il seguente:

POST /guardrails HTTP/1.1 Content-type: application/json { "blockedInputMessaging": "string", "blockedOutputsMessaging": "string", "contentPolicyConfig": { "filtersConfig": [ { "inputAction": "BLOCK | NONE", "inputModalities": [ "TEXT" ], "inputStrength": "NONE | LOW | MEDIUM | HIGH", "outputStrength": "NONE | LOW | MEDIUM | HIGH", "type": "SEXUAL | VIOLENCE | HATE | INSULTS | MISCONDUCT" } ], "tierConfig": { "tierName": "CLASSIC | STANDARD" } }, "crossRegionConfig": { "guardrailProfileIdentifier": "string" }, "description": "string", "name": "string" }
  • Specifica name e description per il guardrail.

  • Specifica i messaggi che indicano quando il guardrail blocca correttamente un prompt o una risposta del modello nei campi blockedInputMessaging e blockedOutputsMessaging.

  • Specifica l’intensità del filtro per le categorie dannose disponibili nell’oggetto contentPolicyConfig.

    Ogni elemento dell’elenco filtersConfig appartiene a una categoria dannosa. Per ulteriori informazioni, consulta Bloccare parole e conversazioni dannose con i filtri dei contenuti. Per ulteriori informazioni sui campi di un filtro dei contenuti, consulta ContentFilter.

    • (Facoltativo) Per inputAction eoutputAction, specifica l’azione intrapresa dal guardrail quando rileva contenuti dannosi nei prompt e nelle risposte.

    • (Facoltativo) Specifica l’azione da intraprendere quando vengono rilevati contenuti dannosi nei prompt utilizzando inputAction o nelle risposte utilizzando outputAction. Scegli BLOCK per bloccare i contenuti e sostituirli con messaggi bloccati oppure NONE per non intraprendere alcuna azione ma restituire informazioni sul rilevamento. Per ulteriori informazioni, consulta Opzioni per la gestione dei contenuti dannosi rilevati da Guardrail per Amazon Bedrock.

    • Specificate l’intensità del filtro per i prompt nel campo inputStrength e per le risposte del modello nel campo outputStrength.

    • Specificate la categoria nel campo type.

  • (Facoltativo) Specifica un livello di protezione per il guardrail nell’oggetto tierConfig all’interno dell’oggetto contentPolicyConfig. Le opzioni includono i livelli STANDARD e CLASSIC.

    Per ulteriori informazioni, consulta Livelli di protezione per le policy dei guardrail.

  • (Facoltativo) Per abilitare l’inferenza interregionale, specifica un profilo di guardrail nell’oggetto crossRegionConfig. È obbligatorio se utilizzi il livello STANDARD.

La risposta avrebbe questo aspetto:

HTTP/1.1 202 Content-type: application/json { "createdAt": "string", "guardrailArn": "string", "guardrailId": "string", "version": "string" }