Mendeteksi dan memfilter konten berbahaya dengan menggunakan Amazon Bedrock Guardrails

Amazon Bedrock Guardrails menyediakan perlindungan yang dapat dikonfigurasi untuk membantu Anda membangun aplikasi AI generatif yang aman. Dengan kontrol keamanan dan privasi yang komprehensif di seluruh model foundation (FMs), Amazon Bedrock Guardrails menawarkan pengalaman pengguna yang konsisten untuk membantu mendeteksi dan memfilter konten yang tidak diinginkan dan melindungi informasi sensitif yang mungkin ada dalam input pengguna atau respons model (tidak termasuk pemblokiran konten penalaran).

Anda dapat menggunakan Amazon Bedrock Guardrails di beberapa kasus penggunaan dan aplikasi. Di bawah ini adalah beberapa contoh:

Aplikasi chatbot untuk membantu menyaring input pengguna yang berbahaya dan respons model beracun.
Aplikasi perbankan untuk membantu memblokir pertanyaan pengguna atau respons model yang terkait dengan mencari atau memberikan saran investasi ilegal.
Aplikasi call center untuk meringkas transkrip percakapan antara pengguna dan agen dapat menggunakan pagar pembatas untuk menyunting informasi identitas pribadi (PII) pengguna untuk melindungi privasi pengguna.

Amazon Bedrock Guardrails menyediakan perlindungan berikut (juga dikenal sebagai filter) untuk mendeteksi dan memfilter konten yang tidak diinginkan:

Filter konten — Filter ini membantu Anda mendeteksi dan memfilter konten teks atau gambar berbahaya dalam permintaan input atau respons model. Pemfilteran dilakukan berdasarkan deteksi kategori konten berbahaya tertentu yang telah ditentukan sebelumnya: Kebencian, Penghinaan, Seksual, Kekerasan, Pelanggaran, dan Serangan Segera. Anda dapat mengonfigurasi kekuatan filter untuk masing-masing kategori ini berdasarkan kasus penggunaan Anda. Kategori ini didukung untuk tingkatan Klasik dan Standar. Dengan tingkat Standar, deteksi konten yang tidak diinginkan diperluas untuk perlindungan terhadap konten berbahaya yang diperkenalkan dalam elemen kode termasuk komentar, nama variabel dan fungsi, dan literal string.
Topik yang ditolak — Anda dapat menentukan serangkaian topik yang tidak diinginkan dalam konteks aplikasi Anda. Filter akan membantu memblokirnya jika terdeteksi dalam kueri pengguna atau respons model. Dengan tingkat Standar, deteksi konten yang tidak diinginkan diperluas untuk perlindungan terhadap konten berbahaya yang diperkenalkan dalam elemen kode termasuk komentar, variabel dan nama fungsi, dan literal string.
Filter kata — Anda dapat menentukan sekumpulan kata atau frasa khusus (sama persis) yang ingin Anda blokir dalam interaksi antara pengguna akhir dan aplikasi AI generatif. Misalnya, Anda dapat memblokir kata-kata kotor (menggunakan ready-to-use opsi) serta kata-kata khusus seperti nama pesaing.
Filter informasi sensitif — Anda dapat mengonfigurasi filter ini untuk membantu memblokir atau menutupi informasi sensitif, seperti informasi identitas pribadi (PII), dalam input pengguna dan respons model. Pemblokiran atau penyembunyian dilakukan berdasarkan deteksi probabilistik informasi sensitif dalam entitas seperti nomor SSN, Tanggal Lahir, alamat, dll. Filter ini juga memungkinkan konfigurasi deteksi pola berbasis ekspresi reguler (regex kustom).
Pemeriksaan grounding kontekstual — Filter ini membantu Anda mendeteksi halusinasi dalam respons model jika tidak dibumikan (secara faktual tidak akurat atau menambahkan informasi baru) di sumber atau tidak relevan dengan kueri pengguna. Misalnya, Anda dapat memblokir atau menandai respons dalam aplikasi retrieval-augmented generation (RAG). Jika respons model menyimpang dari informasi di sumber yang diambil atau tidak menjawab pertanyaan dari pengguna.
Pemeriksaan Penalaran Otomatis — Filter ini membantu Anda memvalidasi keakuratan respons model dasar terhadap seperangkat aturan logis. Anda dapat menggunakan pemeriksaan Penalaran Otomatis untuk mendeteksi halusinasi, menyarankan koreksi, dan menyoroti asumsi yang tidak dinyatakan dalam respons model.

Selain filter di atas, Anda juga dapat mengonfigurasi pesan yang akan dikembalikan ke pengguna jika input pengguna atau respons model melanggar filter yang ditentukan di pagar pembatas.

Eksperimen dan benchmark dengan konfigurasi yang berbeda dan gunakan jendela pengujian bawaan untuk memastikan bahwa hasilnya memenuhi persyaratan kasus penggunaan Anda. Saat Anda membuat pagar pembatas, draf kerja secara otomatis tersedia untuk Anda modifikasi secara iteratif. Bereksperimenlah dengan konfigurasi yang berbeda dan gunakan jendela pengujian bawaan untuk melihat apakah sesuai untuk kasus penggunaan Anda. Jika Anda puas dengan serangkaian konfigurasi, Anda dapat membuat versi pagar pembatas dan menggunakannya dengan model pondasi yang didukung.

Guardrails dapat digunakan secara langsung FMs selama pemanggilan API inferensi dengan menentukan ID pagar pembatas dan versinya. Guardrails juga dapat digunakan secara langsung melalui ApplyGuardrail API tanpa menggunakan model foundation. Jika pagar pembatas digunakan, itu akan mengevaluasi petunjuk input dan penyelesaian FM terhadap filter yang ditentukan.

Untuk pengambilan augmented generation (RAG) atau aplikasi percakapan, Anda mungkin perlu mengevaluasi hanya permintaan input pengguna saat membuang instruksi sistem, hasil pencarian, riwayat percakapan, atau beberapa contoh singkat. Untuk mengevaluasi bagian prompt input secara selektif, lihat Terapkan tag ke input pengguna untuk memfilter konten Kemampuan untuk mengevaluasi hanya bagian dari prompt input yang tersedia melalui AWS SDK dan tidak tersedia di konsol manajemen termasuk Bedrock Playground dan konsol manajemen Bedrock Guardrails.

Topik

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Keamanan injeksi yang cepat

Ikhtisar