Rilevare e filtrare contenuti dannosi utilizzando Guardrail per Amazon Bedrock

Amazon Bedrock Guardrails offre protezioni configurabili per aiutarti a creare applicazioni AI generative sicure. Con controlli completi di sicurezza e privacy su tutti i modelli di base (FMs), Amazon Bedrock Guardrails offre un'esperienza utente coerente per aiutare a rilevare e filtrare i contenuti indesiderati e proteggere le informazioni sensibili che potrebbero essere presenti negli input degli utenti o nelle risposte dei modelli (esclusi i blocchi di contenuti di ragionamento).

Puoi utilizzare Amazon Bedrock Guardrails in diversi casi d'uso e applicazioni. Di seguito sono riportati alcuni esempi:

Un'applicazione chatbot che aiuta a filtrare gli input dannosi degli utenti e le risposte tossiche dei modelli.
Un'applicazione bancaria che aiuta a bloccare le domande degli utenti o le risposte modello associate alla ricerca o alla fornitura di consigli illegali in materia di investimenti.
Un’applicazione di call center per riepilogare le trascrizioni delle conversazioni tra utenti e agenti può utilizzare i guardrail per oscurare le Informazioni di identificazione personale (PII) degli utenti al fine di tutelare la privacy degli utenti.

Amazon Bedrock Guardrails offre le seguenti misure di protezione (note anche come filtri) per rilevare e filtrare i contenuti indesiderati:

Filtri di contenuto: questo filtro ti aiuta a rilevare e filtrare contenuti di testo o immagini dannosi nei prompt di input o nelle risposte dei modelli. Il filtraggio viene eseguito in base al rilevamento di alcune categorie di contenuti dannosi predefinite: odio, insulti, atti sessuali, violenza, cattiva condotta e attacco di prompt. Puoi configurare l'intensità del filtro per ciascuna di queste categorie in base ai tuoi casi d'uso. Queste categorie sono supportate sia per i livelli Classic che Standard. Con il livello Standard, il rilevamento di contenuti indesiderati viene esteso alla protezione dai contenuti dannosi introdotti negli elementi di codice, tra cui commenti, nomi di variabili e funzioni e stringhe letterali.
Argomenti negati: è possibile definire una serie di argomenti indesiderati nel contesto dell'applicazione. Il filtro aiuterà a bloccarli se rilevati nelle query degli utenti o nelle risposte dei modelli. Con il livello Standard, il rilevamento di contenuti indesiderati viene esteso alla protezione dai contenuti dannosi introdotti negli elementi di codice, tra cui commenti, variabili e nomi di funzioni e stringhe letterali.
Filtri di parole: puoi definire una serie di parole o frasi personalizzate (corrispondenza esatta) che desideri bloccare nell'interazione tra utenti finali e applicazioni di intelligenza artificiale generativa. Ad esempio, puoi bloccare le parolacce (usa un' ready-to-useopzione) e le parole personalizzate come i nomi dei concorrenti.
Filtri contenenti informazioni sensibili: puoi configurare questo filtro per bloccare o mascherare informazioni sensibili, come le informazioni di identificazione personale (PII), negli input degli utenti e nelle risposte dei modelli. Il blocco o il mascheramento vengono eseguiti sulla base del rilevamento probabilistico di informazioni sensibili in entità quali numero SSN, data di nascita, indirizzo, ecc. Questo filtro consente anche di configurare il rilevamento di pattern basato su espressioni regolari (regex personalizzata).
Controlli di base contestuali: questo filtro consente di rilevare allucinazioni nelle risposte del modello se non sono fondate (di fatto imprecise o aggiungono nuove informazioni) nella fonte o sono irrilevanti rispetto alla richiesta dell'utente. Ad esempio, è possibile bloccare o contrassegnare le risposte nelle applicazioni RAG (Retrieval-Augmented Generation). Se le risposte del modello si discostano dalle informazioni nella fonte recuperata o non rispondono alla domanda dell'utente.
Controlli di ragionamento automatizzati: questo filtro consente di convalidare l'accuratezza delle risposte del modello di base rispetto a una serie di regole logiche. È possibile utilizzare i controlli del ragionamento automatico per rilevare allucinazioni, suggerire correzioni ed evidenziare ipotesi non dichiarate nelle risposte dei modelli.

Oltre ai filtri precedenti, puoi anche configurare i messaggi da restituire all'utente se un input dell'utente o una risposta del modello viola i filtri definiti nel guardrail.

Sperimenta e confronta diverse configurazioni e utilizza la finestra di test integrata per assicurarti che i risultati soddisfino i requisiti di un caso d’uso. Quando crei un guardrail, è automaticamente disponibile una bozza di lavoro che puoi modificare in modo iterativo. Sperimenta diverse configurazioni e utilizza la finestra di test integrata per capire se sono adatte al tuo caso d’uso. Se approvi un set di configurazioni, puoi creare una versione del guardrail e utilizzarla con i modelli di fondazione supportati.

Guardrail può essere utilizzato direttamente FMs durante l'invocazione dell'API di inferenza specificando l'ID del guardrail e la versione. I guardrail possono anche essere utilizzati direttamente tramite l’API ApplyGuardrail senza invocare i modelli di fondazione. Se viene utilizzato un guardrail, valuterà i prompt di input e i completamenti FM rispetto ai filtri definiti.

Per le applicazioni di generazione aumentata di recupero (RAG) o conversazionali, potrebbe essere necessario valutare solo i prompt di input dell'utente ignorando le istruzioni di sistema, i risultati di ricerca, la cronologia delle conversazioni o alcuni brevi esempi. Per valutare selettivamente una sezione del prompt di input, consulta Applicare tag all’input dell’utente per filtrare i contenuti La possibilità di valutare solo una sezione del prompt di input è disponibile tramite l'SDK AWS e non è disponibile nella console di gestione, tra cui Bedrock Playground e la console di gestione Bedrock Guardrails.

Argomenti

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Sicurezza dell’iniezione di prompt

Panoramica di