Valutazione del guardrail con modalità di rilevamento Esempio: utilizzo della modalità di rilevamento per valutare i filtri dei contenuti

Opzioni per la gestione dei contenuti dannosi rilevati da Amazon Bedrock Guardrails

Puoi configurare le azioni che il guardrail Amazon Bedrock intraprende in fase di esecuzione quando rileva contenuti dannosi nei prompt () e nelle risposte (inputAction). outputAction

Le politiche di filtraggio di Guardrail supportano le seguenti azioni quando vengono rilevati contenuti dannosi negli input e nelle risposte del modello:

Blocca: blocca il contenuto e sostituiscilo con messaggi bloccati.
Maschera: rendi anonimo il contenuto e sostituiscilo con tag identificativi (come {NAME} o). {EMAIL}

Questa opzione è disponibile solo con filtri per informazioni sensibili. Per ulteriori informazioni, consulta Rimuovi le informazioni personali dalle conversazioni utilizzando filtri per informazioni sensibili.
Rileva: non intraprendi alcuna azione ma restituisci ciò che il guardrail rileva nella risposta di tracciamento. Utilizzate questa opzione, nota come modalità di rilevamento, per valutare se il guardrail funziona nel modo previsto.

Valutazione del guardrail con modalità di rilevamento

Le policy di Amazon Bedrock Guardrails supportano la modalità di rilevamento, che consente di valutare le prestazioni del guardrail senza applicare alcuna azione (come bloccare il contenuto).

L'utilizzo della modalità di rilevamento offre i seguenti vantaggi:

Metti alla prova diverse combinazioni e punti di forza delle politiche del tuo guardrail senza influire sull'esperienza del cliente.
Analizza eventuali falsi positivi o negativi e modifica di conseguenza le configurazioni delle policy.
Posiziona il guardrail solo dopo aver verificato che funzioni come previsto.

Esempio: utilizzo della modalità di rilevamento per valutare i filtri dei contenuti

Ad esempio, supponiamo che tu configuri una policy con un livello di filtro dei contenuti pari aHIGH. In base a questa impostazione, il guardrail bloccherà i contenuti anche se restituisce una valutazione sicura. LOW

Per comprendere questo comportamento (e assicurarti che l'applicazione non blocchi contenuti inaspettati), puoi configurare l'azione politica come. NONE La risposta di trace potrebbe essere simile alla seguente:


{
    "assessments": [{
        "contentPolicy": {
            "filters": [{
                "action": "NONE",
                "confidence": "LOW",
                "detected": true,
                "filterStrength": "HIGH",
                "type": "VIOLENCE"
            }]
        }
    }]
}

Ciò ti consente di visualizzare in anteprima la valutazione del guardrail e vedere che VIOLENCE è stato rilevato (true), ma non è stata intrapresa alcuna azione perché l'hai configurata così. NONE

Se non vuoi bloccare quel testo, puoi regolare l'intensità del filtro MEDIUM o ripetere LOW la valutazione. Una volta ottenuti i risultati che cerchi, puoi aggiornare la tua azione politica su BLOCK oANONYMIZE.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Aggiungi controlli di base contestuali

Aggiungi controlli di ragionamento automatizzati in Amazon Bedrock Guardrails