Creare un guardrail

Amazon Bedrock Guardrails offre filtri che puoi configurare per evitare contenuti indesiderati e dannosi e rimuovere o mascherare informazioni sensibili per la protezione della privacy.

Puoi configurare i seguenti filtri con Amazon Bedrock Guardrails:

Filtri di contenuto: questo filtro ti aiuta a rilevare e filtrare contenuti di testo o immagini dannosi nei prompt di input o nelle risposte dei modelli (esclusi i contenuti di ragionamento). Il filtraggio viene eseguito in base al rilevamento di alcune categorie di contenuti dannosi predefinite: odio, insulti, atti sessuali, violenza, cattiva condotta e attacco di prompt. Puoi configurare l'intensità del filtro per ciascuna di queste categorie in base ai tuoi casi d'uso. Con il livello Standard, il rilevamento di contenuti indesiderati viene esteso per proteggere dai contenuti dannosi all'interno degli elementi di codice, tra cui commenti, nomi di variabili e funzioni e stringhe letterali.
Attacchi rapidi: offerto come categoria all'interno dei filtri di contenuto, questo filtro può aiutarti a rilevare e filtrare gli attacchi rapidi, tra cui jailbreak, iniezioni tempestive e fughe di messaggi (solo livello Standard). Questa funzionalità consente di rilevare i prompt che hanno lo scopo di aggirare la moderazione dei contenuti, ignorare le istruzioni o generare contenuti dannosi.
Argomenti negati: puoi definire una serie di argomenti da evitare all’interno della tua applicazione di IA generativa. Ad esempio, è possibile progettare un’applicazione di assistente bancario per evitare argomenti relativi a consulenze illegali in materia di investimenti. Con il livello Standard, i filtri dei contenuti si estendono ai domini di codice.
Filtri di parole: puoi definire una serie di parole o frasi personalizzate (corrispondenza esatta) che desideri rilevare e bloccare nell'interazione tra gli utenti e le applicazioni di intelligenza artificiale generativa. Ad esempio, puoi rilevare e bloccare parole volgari (utilizzando un' ready-to-useopzione), nonché parole personalizzate specifiche come i nomi dei concorrenti o altre parole offensive.
Filtri per informazioni sensibili: ti aiutano a rilevare contenuti sensibili come Informazioni di identificazione personale (PII) in formati standard o espressioni regolari personalizzate negli input degli utenti e nelle risposte dei modelli di fondazione. Questo filtro è una soluzione basata sul machine learning (ML) probabilistico che dipende dal contesto. Rileva le informazioni sensibili in base al contesto all'interno dei prompt di input o delle risposte del modello. In base al caso d'uso, è possibile bloccare o mascherare gli input e le risposte contenenti informazioni sensibili. Ad esempio, puoi oscurare le informazioni personali degli utenti generando riepiloghi dalle trascrizioni delle conversazioni con clienti e agenti.
Controlli di correlazione contestuale: ti aiutano a rilevare e filtrare le allucinazioni nelle risposte dei modelli se non sono correlate (di fatto imprecise o aggiungono nuove informazioni) nelle informazioni di origine o sono irrilevanti rispetto alla query dell’utente. Ad esempio, è possibile bloccare o contrassegnare le risposte nelle applicazioni RAG (retrieval-augmented generation), se le risposte del modello si discostano dalle informazioni nei passaggi recuperati o non rispondono alla domanda dell'utente.
Controlli del ragionamento automatico: ti aiutano a verificare che le risposte dei modelli rispettino le regole e le policy logiche definite. È possibile creare politiche utilizzando il linguaggio naturale che specificano i requisiti di ragionamento e i controlli di ragionamento automatizzati valuteranno se gli output del modello sono conformi a questi vincoli logici. Ad esempio, puoi assicurarti che un chatbot del servizio clienti consigli solo i prodotti disponibili nell'inventario o verificare che la consulenza finanziaria segua le regole di conformità normativa.

Nota

Tutti i contenuti bloccati dalle policy di cui sopra vengono visualizzati come testo semplice nei log delle invocazioni dei modelli di Amazon Bedrock, se li hai abilitati. Puoi disabilitare i log delle invocazioni di Amazon Bedrock se non desideri che i contenuti bloccati appaiano come testo normale nei log.

Un guardrail deve contenere almeno un filtro e un messaggio da mostrare quando i prompt o le risposte degli utenti vengono bloccati. Puoi scegliere di utilizzare la messaggistica predefinita. Puoi aggiungere filtri ed eseguire iterazioni sul guardrail in un secondo momento seguendo la procedura in Modifica del guardrail.

Argomenti

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Utilizzo di politiche basate sulle risorse per i guardrail

Configurare filtri di contenuto