Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Opsi untuk menangani konten berbahaya yang terdeteksi oleh Amazon Bedrock Guardrails
Anda dapat mengonfigurasi tindakan yang dilakukan pagar pembatas Amazon Bedrock Anda saat runtime saat mendeteksi konten berbahaya di prompt () dan respons ()inputAction
. outputAction
Kebijakan pemfilteran pagar pembatas mendukung tindakan berikut ketika konten berbahaya terdeteksi dalam input dan tanggapan model:
-
Blokir — Blokir konten dan ganti dengan pesan yang diblokir.
-
Mask — Menganonimkan konten dan menggantinya dengan tag pengenal (seperti atau).
{NAME}
{EMAIL}
Opsi ini hanya tersedia dengan filter informasi sensitif. Untuk informasi selengkapnya, lihat Hapus PII dari percakapan dengan menggunakan filter informasi sensitif.
-
Deteksi - Jangan mengambil tindakan tetapi kembalikan apa yang dideteksi pagar pembatas dalam respons jejak. Gunakan opsi ini, yang dikenal sebagai mode deteksi, untuk membantu mengevaluasi apakah pagar pembatas Anda bekerja seperti yang Anda harapkan.
Evaluasi pagar pembatas dengan mode deteksi
Kebijakan Amazon Bedrock Guardrails mendukung mode deteksi, yang memungkinkan Anda mengevaluasi kinerja pagar pembatas tanpa menerapkan tindakan apa pun (seperti memblokir konten).
Menggunakan mode deteksi menawarkan manfaat berikut:
-
Uji berbagai kombinasi dan kekuatan kebijakan pagar pembatas Anda tanpa memengaruhi pengalaman pelanggan.
-
Analisis setiap positif palsu atau negatif dan sesuaikan konfigurasi kebijakan Anda.
-
Terapkan pagar pembatas Anda hanya setelah mengonfirmasi bahwa itu berfungsi seperti yang diharapkan.
Contoh: Menggunakan mode deteksi untuk mengevaluasi filter konten
Misalnya, katakanlah Anda mengonfigurasi kebijakan dengan kekuatan filter kontenHIGH
. Berdasarkan pengaturan ini, pagar pembatas Anda akan memblokir konten bahkan jika itu mengembalikan kepercayaan LOW
dalam evaluasinya.
Untuk memahami perilaku ini (dan memastikan bahwa aplikasi Anda tidak memblokir konten yang tidak Anda harapkan), Anda dapat mengonfigurasi tindakan kebijakan sebagaiNONE
. Respons jejak mungkin terlihat seperti ini:
{ "assessments": [{ "contentPolicy": { "filters": [{ "action": "NONE", "confidence": "LOW", "detected": true, "filterStrength": "HIGH", "type": "VIOLENCE" }] } }] }
Ini memungkinkan Anda untuk melihat pratinjau evaluasi pagar pembatas dan melihat bahwa VIOLENCE
terdeteksi (true
), tetapi tidak ada tindakan yang diambil karena Anda mengonfigurasinya. NONE
Jika Anda tidak ingin memblokir teks itu, Anda dapat menyetel kekuatan filter ke MEDIUM
atau LOW
dan mengulang evaluasi. Setelah Anda mendapatkan hasil yang Anda cari, Anda dapat memperbarui tindakan kebijakan Anda ke BLOCK
atauANONYMIZE
.