Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Opzioni per la gestione dei contenuti dannosi rilevati da Amazon Bedrock Guardrails
Puoi configurare le azioni che il guardrail Amazon Bedrock intraprende in fase di esecuzione quando rileva contenuti dannosi nei prompt () e nelle risposte (inputAction
). outputAction
Le politiche di filtraggio di Guardrail supportano le seguenti azioni quando vengono rilevati contenuti dannosi negli input e nelle risposte del modello:
-
Blocca: blocca il contenuto e sostituiscilo con messaggi bloccati.
-
Maschera: rendi anonimo il contenuto e sostituiscilo con tag identificativi (come
{NAME}
o).{EMAIL}
Questa opzione è disponibile solo con filtri per informazioni sensibili. Per ulteriori informazioni, consulta Rimuovi le informazioni personali dalle conversazioni utilizzando filtri per informazioni sensibili.
-
Rileva: non intraprendi alcuna azione ma restituisci ciò che il guardrail rileva nella risposta di tracciamento. Utilizzate questa opzione, nota come modalità di rilevamento, per valutare se il guardrail funziona nel modo previsto.
Valutazione del guardrail con modalità di rilevamento
Le policy di Amazon Bedrock Guardrails supportano la modalità di rilevamento, che consente di valutare le prestazioni del guardrail senza applicare alcuna azione (come bloccare il contenuto).
L'utilizzo della modalità di rilevamento offre i seguenti vantaggi:
-
Metti alla prova diverse combinazioni e punti di forza delle politiche del tuo guardrail senza influire sull'esperienza del cliente.
-
Analizza eventuali falsi positivi o negativi e modifica di conseguenza le configurazioni delle policy.
-
Posiziona il guardrail solo dopo aver verificato che funzioni come previsto.
Esempio: utilizzo della modalità di rilevamento per valutare i filtri dei contenuti
Ad esempio, supponiamo che tu configuri una policy con un livello di filtro dei contenuti pari aHIGH
. In base a questa impostazione, il guardrail bloccherà i contenuti anche se restituisce una valutazione sicura. LOW
Per comprendere questo comportamento (e assicurarti che l'applicazione non blocchi contenuti inaspettati), puoi configurare l'azione politica come. NONE
La risposta di trace potrebbe essere simile alla seguente:
{ "assessments": [{ "contentPolicy": { "filters": [{ "action": "NONE", "confidence": "LOW", "detected": true, "filterStrength": "HIGH", "type": "VIOLENCE" }] } }] }
Ciò ti consente di visualizzare in anteprima la valutazione del guardrail e vedere che VIOLENCE
è stato rilevato (true
), ma non è stata intrapresa alcuna azione perché l'hai configurata così. NONE
Se non vuoi bloccare quel testo, puoi regolare l'intensità del filtro MEDIUM
o ripetere LOW
la valutazione. Una volta ottenuti i risultati che cerchi, puoi aggiornare la tua azione politica su BLOCK
oANONYMIZE
.