Blocca parole e conversazioni dannose con i filtri dei contenuti - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Blocca parole e conversazioni dannose con i filtri dei contenuti

Amazon Bedrock Guardrails supporta filtri di contenuto per aiutare a rilevare e filtrare gli input dannosi degli utenti e gli output generati dal modello in linguaggio naturale. I filtri di contenuto sono supportati nelle seguenti categorie:

Odio

  • Descrive i suggerimenti di input e le risposte modello che discriminano, criticano, insultano, denunciano o disumanizzano una persona o un gruppo sulla base di un'identità (come razza, etnia, genere, religione, orientamento sessuale, abilità e origine nazionale).

Insulti

  • Descrive i suggerimenti di input e le risposte modello che includono un linguaggio umiliante, derisorio, offensivo o sminuente. Questo tipo di linguaggio è anche etichettato come bullismo.

Sessuale

  • Descrive i suggerimenti di input e le risposte modello che indicano interesse, attività o eccitazione sessuale utilizzando riferimenti diretti o indiretti a parti del corpo, tratti fisici o sesso.

Violenza

  • Descrive i suggerimenti di input e le risposte modello che includono la glorificazione o la minaccia di infliggere dolore fisico, ferite o lesioni a una persona, un gruppo o una cosa.

Cattiva condotta

  • Descrive i suggerimenti di input e le risposte modello che cercano o forniscono informazioni sul coinvolgimento in attività criminali o sul danneggiamento, la frode o lo sfruttamento di una persona, un gruppo o un'istituzione.

Configura i filtri di contenuto per il tuo guardrail

Puoi configurare i filtri dei contenuti per il tuo guardrail utilizzando l'API AWS Management Console o Amazon Bedrock.

Console
  1. Accedi a AWS Management Console con un'identità IAM che dispone delle autorizzazioni per utilizzare la console Amazon Bedrock. Quindi, apri la console Amazon Bedrock all'indirizzo https://console.aws.amazon.com/bedrock/.

  2. Dal riquadro di navigazione a sinistra, scegli Guardrails, quindi scegli Crea guardrail.

  3. Per fornire la pagina dei dettagli del guardrail, procedi come segue:

    1. Nella sezione dei dettagli del guardrail, fornisci un nome e una descrizione opzionale per il guardrail.

    2. Per Messaggi per richieste bloccate, inserisci un messaggio che viene visualizzato quando viene applicato il guardrail. Seleziona la casella di controllo Applica lo stesso messaggio bloccato alle risposte per utilizzare lo stesso messaggio quando il guardrail viene applicato alla risposta.

    3. (Facoltativo) Per abilitare l'inferenza tra regioni per il tuo guardrail, espandi Inferenza interregionale, quindi seleziona Abilita inferenza interregionale per il tuo guardrail. Scegli un profilo guardrail che definisca la destinazione in cui possono essere instradate le richieste di inferenza del guardrail. Regioni AWS

    4. (Facoltativo) Per impostazione predefinita, il guardrail è crittografato con un. Chiave gestita da AWS Per utilizzare la tua chiave KMS gestita dal cliente, espandi la selezione della chiave KMS e seleziona la casella di controllo Personalizza le impostazioni di crittografia (avanzate).

      Puoi selezionare una AWS KMS chiave esistente o selezionare Crea una chiave per crearne una AWS KMS nuova.

    5. (Facoltativo) Per aggiungere tag al tuo guardrail, espandi Tag. Quindi seleziona Aggiungi nuovo tag per ogni tag che definisci.

      Per ulteriori informazioni, consulta Etichettare le risorse di Amazon Bedrock.

    6. Scegli Next (Successivo).

  4. Nella pagina Configura i filtri dei contenuti, imposta la forza con cui desideri filtrare i contenuti correlati alle categorie definite in Blocca parole e conversazioni dannose con i filtri dei contenuti procedendo come segue:

    1. Seleziona Configura il filtro delle categorie dannose. Seleziona Testo e/o Immagine per filtrare il contenuto di testo o immagine dai prompt o dalle risposte al modello. Seleziona Nessuno, Basso, Medio o Alto per il livello di filtrazione che desideri applicare a ciascuna categoria. Puoi scegliere di avere diversi livelli di filtro per le richieste o le risposte. È possibile selezionare il filtro per gli attacchi rapidi nelle categorie dannose. Configura quanto rigoroso desideri che ogni filtro sia per i prompt che l'utente fornisce al modello.

    2. Scegli Blocca o Rileva (nessuna azione) per determinare l'azione intrapresa dal guardrail quando rileva contenuti dannosi nei prompt e nelle risposte.

      Per ulteriori informazioni, consulta Opzioni per la gestione dei contenuti dannosi rilevati da Amazon Bedrock Guardrails.

    3. Per Imposta soglia, seleziona Nessuno, Basso, Medio o Alto per il livello di filtrazione che desideri applicare a ciascuna categoria.

      Puoi scegliere di avere diversi livelli di filtro per i prompt e le risposte.

    4. Per il livello dei filtri dei contenuti, scegli il livello di protezione che desideri che il guardrail utilizzi per filtrare i prompt e le risposte basati su testo. Per ulteriori informazioni, consulta Livelli di salvaguardia per le politiche di guardrail.

    5. Scegli Avanti per configurare altre politiche in base alle esigenze o passa a Rivedi e crea per completare la creazione del tuo guardrail.

  5. Controlla le impostazioni del tuo guardrail.

    1. Seleziona Modifica in qualsiasi sezione a cui desideri apportare modifiche.

    2. Al termine della configurazione delle politiche, seleziona Crea per creare il guardrail.

API

Configura i filtri di contenuto per il tuo guardrail inviando una richiesta. CreateGuardrail Il formato della richiesta è il seguente:

POST /guardrails HTTP/1.1 Content-type: application/json { "blockedInputMessaging": "string", "blockedOutputsMessaging": "string", "contentPolicyConfig": { "filtersConfig": [ { "inputAction": "BLOCK | NONE", "inputModalities": [ "TEXT" ], "inputStrength": "NONE | LOW | MEDIUM | HIGH", "outputStrength": "NONE | LOW | MEDIUM | HIGH", "type": "SEXUAL | VIOLENCE | HATE | INSULTS | MISCONDUCT" } ], "tierConfig": { "tierName": "CLASSIC | STANDARD" } }, "crossRegionConfig": { "guardrailProfileIdentifier": "string" }, "description": "string", "name": "string" }
  • Specificare una name e description per il guardrail.

  • Specificate i messaggi che indicano quando il guardrail blocca correttamente un prompt o una risposta del modello nei campi and. blockedInputMessaging blockedOutputsMessaging

  • Specificate i livelli di filtraggio per le categorie dannose disponibili nell'oggetto. contentPolicyConfig

    Ogni elemento dell'filtersConfigelenco appartiene a una categoria dannosa. Per ulteriori informazioni, consulta Blocca parole e conversazioni dannose con i filtri dei contenuti. Per ulteriori informazioni sui campi di un filtro di contenuti, consulta ContentFilter.

    • (Facoltativo) Per inputAction eoutputAction, specifica l'azione intrapresa dal guardrail quando rileva contenuti dannosi nei prompt e nelle risposte.

    • (Facoltativo) Specificate l'azione da intraprendere quando vengono rilevati contenuti dannosi nei prompt utilizzati o nelle risposte utilizzando. inputAction outputAction Scegli BLOCK di bloccare i contenuti e sostituirli con messaggi bloccati oppure di non NONE intraprendere alcuna azione ma restituire informazioni di rilevamento. Per ulteriori informazioni, consulta Opzioni per la gestione dei contenuti dannosi rilevati da Amazon Bedrock Guardrails.

    • Specificate la potenza del filtro per i prompt inputStrength sul campo e per le risposte del modello sul outputStrength campo.

    • Specificate la categoria nel campo. type

  • (Facoltativo) Specificate un livello di protezione per il guardrail nell'tierConfigoggetto all'interno dell'contentPolicyConfigoggetto. Le opzioni includono i STANDARD livelli. CLASSIC

    Per ulteriori informazioni, consulta Livelli di salvaguardia per le politiche di guardrail.

  • (Facoltativo) Per abilitare l'inferenza tra regioni, specificate un profilo di guardrail nell'oggetto. crossRegionConfig Questo è necessario quando si utilizza il livello. STANDARD

Il formato di risposta è simile al seguente:

HTTP/1.1 202 Content-type: application/json { "createdAt": "string", "guardrailArn": "string", "guardrailId": "string", "version": "string" }