Creare un guardrail - Amazon Bedrock

Creare un guardrail

Guardrail per Amazon Bedrock consiste in una raccolta di diverse policy di filtraggio che puoi configurare per evitare contenuti indesiderati e dannosi e rimuovere o mascherare informazioni sensibili per la tutela della privacy.

Ora puoi configurare le seguenti policy in un guardrail:

  • Filtri di contenuto: è possibile configurare alcune soglie per bloccare le richieste di input o modellare le risposte in linguaggio naturale per il testo e separatamente per le immagini che includono contenuti dannosi come odio, insulti, atti sessuali, violenza, cattiva condotta (inclusa l’attività criminale) e gli attacchi di prompt (iniezione di prompt e jailbreaking). Ad esempio, un sito di e-commerce può progettare il proprio assistente online in modo da evitare l’utilizzo di linguaggio e/o immagini inappropriate, come odio o violenza.

  • Attacchi di prompt: può aiutarti a rilevare e filtrare gli attacchi e le iniezioni di prompt. Aiuta a rilevare i prompt che hanno l’obiettivo di aggirare la moderazione, ignorare le istruzioni o generare contenuti dannosi.

  • Argomenti negati: puoi definire una serie di argomenti da evitare all’interno della tua applicazione di IA generativa. Ad esempio, è possibile progettare un’applicazione di assistente bancario per evitare argomenti relativi a consulenze illegali in materia di investimenti.

  • Filtri per parole: puoi configurare un set di parole o frasi personalizzate (corrispondenza esatta) che desideri rilevare e bloccare nell’interazione tra gli utenti e le applicazioni di IA generativa. Ad esempio, puoi rilevare e bloccare volgarità, nonché parole personalizzate specifiche come i nomi dei concorrenti o altre parole offensive.

  • Filtri per informazioni sensibili: ti aiutano a rilevare contenuti sensibili come Informazioni di identificazione personale (PII) in formati standard o espressioni regolari personalizzate negli input degli utenti e nelle risposte dei modelli di fondazione. In base al caso d’uso, è possibile rifiutare input contenenti informazioni sensibili oppure oscurarli nelle risposte dei modelli di fondazione. Ad esempio, puoi oscurare le informazioni personali degli utenti generando riepiloghi dalle trascrizioni delle conversazioni con clienti e agenti.

  • Controlli di correlazione contestuale: ti aiutano a rilevare e filtrare le allucinazioni nelle risposte dei modelli se non sono correlate (di fatto imprecise o aggiungono nuove informazioni) nelle informazioni di origine o sono irrilevanti rispetto alla query dell’utente. Ad esempio, è possibile bloccare o contrassegnare le risposte nelle applicazioni RAG (generazione potenziata da recupero dati), se le risposte dei modelli si discostano dalle informazioni nei passaggi recuperati o non rispondono alla domanda dell’utente.

  • Controlli del ragionamento automatico: ti aiutano a verificare che le risposte dei modelli rispettino le regole e le policy logiche definite. È possibile creare policy mediante linguaggio naturale che specificano i requisiti di ragionamento e il guardrail valuterà se gli output del modello sono conformi a questi vincoli logici. Ad esempio, puoi assicurarti che un chatbot del servizio clienti consigli solo i prodotti effettivamente disponibili in magazzino o verificare che la consulenza finanziaria segua le regole di conformità normativa.

Nota

Tutti i contenuti bloccati dalle policy di cui sopra vengono visualizzati come testo semplice nei log delle invocazioni dei modelli di Amazon Bedrock, se li hai abilitati. Puoi disabilitare i log delle invocazioni di Amazon Bedrock se non desideri che i contenuti bloccati appaiano come testo normale nei log.

Un guardrail deve contenere almeno un filtro e un messaggio da mostrare quando i prompt o le risposte degli utenti vengono bloccati. Puoi scegliere di utilizzare la messaggistica predefinita. Puoi aggiungere filtri ed eseguire iterazioni sul guardrail in un secondo momento seguendo la procedura in Modifica del guardrail.