Configurare il comportamento delle risposta in streaming per filtrare i contenuti - Amazon Bedrock

Configurare il comportamento delle risposta in streaming per filtrare i contenuti

L’API InvokeModelWithResponseStream restituisce i dati in un formato di streaming. Ciò consente di accedere alle risposte in blocchi senza attendere tutto il risultato. Quando si utilizzano guardrail con una risposta in streaming, esistono due modalità operative: sincrona e asincrona.

Modalità sincrona

Nella modalità sincrona predefinita, i guardrail memorizzano nel buffer le policy configurate e le applicano a uno o più blocchi di risposta prima che la risposta venga reinviata all’utente. La modalità di elaborazione sincrona introduce una certa latenza nei blocchi di risposta, in quanto significa che la risposta viene ritardata fino al completamento della scansione dei guardrail. Tuttavia, offre una maggiore precisione, poiché ogni blocco di risposta viene scansionato dai guardrail prima di essere inviato all’utente.

Modalità asincrona

In modalità asincrona, i guardrail inviano i blocchi di risposta all’utente non appena diventano disponibili, mentre applica in modo asincrono le policy configurate in background. Il vantaggio è che i blocchi di risposta vengono forniti immediatamente senza alcun impatto sulla latenza, ma i blocchi di risposta possono contenere contenuti inappropriati fino al completamento della scansione dei guardrail. Non appena viene identificato un contenuto inappropriato, i blocchi successivi vengono bloccati dai guardrail.

avvertimento

Guardrail per Amazon Bedrock non supporta il mascheramento di informazioni sensibili con la modalità asincrona.

Abilitazione della modalità asincrona

Per abilitare la modalità asincrona, è necessario includere il parametro streamProcessingMode nell’oggetto amazon-bedrock-guardrailConfig della richiesta InvokeModelWithResponseStream:

{ "amazon-bedrock-guardrailConfig": { "streamProcessingMode": "ASYNCHRONOUS" } }

Comprendendo i compromessi tra la modalità sincrona e quella asincrona, è possibile scegliere la modalità appropriata in base ai requisiti dell’applicazione in termini di latenza e precisione della moderazione dei contenuti.