Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Opzioni per la gestione dei contenuti dannosi rilevati da Guardrail per Amazon Bedrock
Puoi configurare le azioni eseguite dal guardrail per Amazon Bedrock Guardrail in fase di runtime quando rileva contenuti dannosi nei prompt (inputAction) e nelle risposte (outputAction).
Le policy di filtraggio dei guardrail supportano le seguenti azioni quando vengono rilevati contenuti dannosi negli input e nelle risposte del modello:
-
Blocca: blocca il contenuto e lo sostituisce con messaggi bloccati.
-
Maschera: rende anonimo il contenuto e lo sostituisce con tag identificativi (come
{NAME}o{EMAIL}).Questa opzione è disponibile solo con i filtri per informazioni sensibili. Per ulteriori informazioni, consulta Rimuovere le informazioni di identificazione personale dalle conversazioni utilizzando filtri per informazioni sensibili.
-
Rileva: non intraprende alcuna azione ma restituisce ciò che il guardrail rileva nella risposta di tracciamento. Utilizza questa opzione, nota come modalità di rilevamento, per valutare se il guardrail funziona nel modo previsto.
Valutazione del guardrail con modalità di rilevamento
Le policy di Guardrail per Amazon Bedrock supportano la modalità di rilevamento, che consente di valutare le prestazioni del guardrail senza applicare alcuna azione (come bloccare il contenuto).
L’utilizzo della modalità di rilevamento offre i seguenti vantaggi:
-
Provare diverse combinazioni e livelli di sicurezza delle policy del guardrail senza influire sull’esperienza dei clienti.
-
Analizzare eventuali falsi positivi o negativi e modificare di conseguenza le configurazioni delle policy.
-
Distribuire il guardrail solo dopo aver verificato che funzioni come previsto.
Esempio: utilizzo della modalità di rilevamento per valutare i filtri dei contenuti
Ad esempio, si supponga di configurare una policy con un’intensità del filtro dei contenuti pari a HIGH. In base a questa impostazione, il guardrail bloccherà i contenuti anche se restituisce un’attendibilità pari a LOW nella valutazione.
Per comprendere questo comportamento (e assicurarti che l’applicazione non blocchi contenuti che non ti aspetti), puoi configurare l’azione della policy come NONE. L’aspetto della risposta di traccia potrebbe essere simile al seguente:
{ "assessments": [{ "contentPolicy": { "filters": [{ "action": "NONE", "confidence": "LOW", "detected": true, "filterStrength": "HIGH", "type": "VIOLENCE" }] } }] }
Ciò consente di visualizzare in anteprima la valutazione del guardrail e vedere che VIOLENCE è stata rilevata (true), ma non è stata intrapresa alcuna azione perché è stato configurato su NONE.
Se non desideri bloccare tale testo, puoi regolare l’intensità del filtro su MEDIUM o LOW e ripetere la valutazione. Una volta ottenuti i risultati desiderati, puoi aggiornare l’azione della policy su BLOCK o ANONYMIZE.