Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Rilevare e filtrare contenuti dannosi utilizzando Guardrail per Amazon Bedrock
Guardrail per Amazon Bedrock offre protezioni che puoi configurare per le applicazioni di IA generativa in base ai tuoi casi d’uso e alle policy di IA responsabile. Puoi creare più barriere personalizzate per diversi casi d'uso e applicarle su più modelli di base (FMs), fornendo un'esperienza utente coerente e standardizzando i controlli di sicurezza e privacy nelle applicazioni di intelligenza artificiale generativa. È possibile utilizzare i guardrail sia per i prompt dei modelli che per le risposte con linguaggio naturale.
Puoi utilizzare Guardrail per Amazon Bedrock in diversi modi per proteggere le tue applicazioni di IA generativa. Esempio:
-
Un’applicazione chatbot può utilizzare i guardrail per filtrare gli input dannosi degli utenti e le risposte tossiche dei modelli.
-
Un’applicazione bancaria può utilizzare i guardrail per bloccare le query degli utenti o le risposte dei modelli associate alla ricerca o alla distribuzione di consigli investimenti.
-
Un’applicazione di call center per riepilogare le trascrizioni delle conversazioni tra utenti e agenti può utilizzare i guardrail per oscurare le Informazioni di identificazione personale (PII) degli utenti al fine di tutelare la privacy degli utenti.
Guardrail per Amazon Bedrock offre le seguenti misure di protezione (note anche come policy) per rilevare e filtrare i contenuti dannosi:
-
Filtri di contenuto: rileva e filtra contenuti di testo o immagini dannosi nei prompt di input o nelle risposte dei modelli. Il filtraggio viene eseguito in base al rilevamento di alcune categorie di contenuti dannosi predefinite: odio, insulti, atti sessuali, violenza, cattiva condotta e attacco di prompt. Puoi anche regolare l’intensità dei filtri per ciascuna di queste categorie. Queste categorie sono supportate sia per i livelli Classic che Standard. Con il livello Standard, il rilevamento di contenuti indesiderati viene esteso alla protezione dai contenuti dannosi introdotti negli elementi di codice, tra cui commenti, nomi di variabili e funzioni e stringhe letterali.
-
Argomenti negati: definisci una serie di argomenti indesiderati nel contesto della tua applicazione. Il filtro aiuterà a bloccarli se rilevati nelle query degli utenti o nelle risposte dei modelli. Con il livello Standard, il rilevamento dei contenuti indesiderati viene esteso alla protezione dai contenuti dannosi introdotti negli elementi di codice, tra cui commenti, variabili e nomi di funzioni e stringhe letterali.
-
Filtri per parole: configura i filtri per bloccare parole, frasi indesiderate e volgarità (corrispondenza esatta). Tali parole possono includere termini offensivi, nomi di concorrenti e così via.
-
Filtri per informazioni sensibili: configura i filtri per bloccare o mascherare le informazioni sensibili, come le Informazioni di identificazione personale (PII) o espressioni regolari personalizzate negli input degli utenti e nelle risposte dei modelli. Il blocco o il mascheramento vengono eseguiti sulla base del rilevamento probabilistico di informazioni sensibili in formati standard in entità come numero SSN, data di nascita, indirizzo e così via. Ciò consente anche di configurare il rilevamento di modelli per gli identificatori basato su espressioni regolari.
-
Controlli di correlazione contestuale: rilevano e filtrano le allucinazioni nelle risposte dei modelli in base alla provenienza e alla pertinenza della query dell’utente.
-
Controlli del ragionamento automatico: ti aiutano a convalidare l’accuratezza delle risposte del modello di fondazione rispetto a una serie di regole logiche. È possibile utilizzare i controlli del ragionamento automatico per rilevare allucinazioni, suggerire correzioni ed evidenziare ipotesi non dichiarate nelle risposte dei modelli.
Oltre alle policy di cui sopra, puoi anche configurare i messaggi da restituire all’utente se l’input dell’utente o la risposta dei modelli violano le policy definite nel guardrail.
Sperimenta e confronta diverse configurazioni e utilizza la finestra di test integrata per assicurarti che i risultati soddisfino i requisiti di un caso d’uso. Quando crei un guardrail, è automaticamente disponibile una bozza di lavoro che puoi modificare in modo iterativo. Sperimenta diverse configurazioni e utilizza la finestra di test integrata per capire se sono adatte al tuo caso d’uso. Se approvi un set di configurazioni, puoi creare una versione del guardrail e utilizzarla con i modelli di fondazione supportati.
Guardrail può essere utilizzato direttamente con FMs durante l'invocazione dell'API di inferenza specificando l'ID guardrail e la versione. I guardrail possono anche essere utilizzati direttamente tramite l’API ApplyGuardrail senza invocare i modelli di fondazione. Se viene utilizzato un guardrail, valuterà i prompt di input e i completamenti dei modelli di fondazione rispetto alle policy definite.
Per le applicazioni conversazionali o di generazione potenziata da recupero dati (RAG), potrebbe essere necessario valutare solo l’input dell’utente nel prompt di input, ignorando le istruzioni di sistema, i risultati della ricerca, la cronologia delle conversazioni o alcuni brevi esempi. Per valutare selettivamente una sezione del prompt di input, consulta Applicare tag all’input dell’utente per filtrare i contenuti.