Bloccare parole e conversazioni dannose con i filtri dei contenuti
Guardrail per Amazon Bedrock supporta filtri dei contenuti per aiutare a rilevare e filtrare gli input dannosi degli utenti e gli output generati dal modello in linguaggio naturale. I filtri dei contenuti sono supportati nelle seguenti categorie:
Odio
Si riferisce a prompt di input e risposte del modello che discriminano, criticano, insultano, denunciano o disumanizzano una persona o un gruppo sulla base di un’identità (come razza, etnia, genere, religione, orientamento sessuale, abilità e origine nazionale).
Insulti
Si riferisce a prompt di input e risposte del modello che includono linguaggio umiliante, denigratorio, derisorio, insultante o sminuente. Questo tipo di linguaggio è anche etichettato come bullismo.
Sessuale
Si riferisce a prompt di input e risposte del modello che indicano interesse, attività o eccitazione sessuale utilizzando riferimenti diretti o indiretti a parti del corpo, tratti fisici o sesso.
Violenza
Si riferisce a prompt di input e risposte del modello che contengono l’esaltazione o la minaccia di causare dolore fisico, danno o lesioni a un individuo, un gruppo o un oggetto.
Cattiva condotta
Si riferisce a prompt di input e le risposte del modello che cercano o forniscono informazioni relative al coinvolgimento in attività criminali, al danneggiamento, alla frode o allo sfruttamento di un individuo, un gruppo o una istituzione.
Configurare i filtri dei contenuto per il guardrail
Per configurare i filtri dei contenuti per il guardrail, utilizzare la Console di gestione AWS o l’API Amazon Bedrock.