Konsep: Pesan, jenis blok konten, dan pemeriksaan

Konsep berikut menjelaskan struktur permintaan ke InvokeGuardrailChecks API.

Pesan

Pesan adalah unit dasar konten yang Anda kirimkan untuk evaluasi. Setiap pesan memiliki dua bidang: peran yang mengidentifikasi siapa yang menghasilkan konten, dan larik konten yang menyimpan teks aktual sebagai satu atau beberapa blok konten yang diketik.


{
  "role": "user",
  "content": [{ "text": "Hello world" }]
}

Ini mencerminkan struktur role-plus-content-blocks yang digunakan di tempat lain di Amazon Bedrock, sehingga percakapan yang sudah Anda buat untuk model dapat diteruskan dengan sedikit atau tanpa pembentukan kembali. InvokeGuardrailChecks messagesBidang permintaan adalah array, sehingga Anda dapat mengirimkan pesan tunggal atau urutan yang mewakili pertukaran multi-putaran (misalnya, instruksi sistem diikuti oleh giliran pengguna). Pesan dievaluasi sesuai urutan yang Anda berikan, dan posisinya penting: beberapa hasil merujuk kembali ke pesan berdasarkan nolmessageIndex, dan ke blok dalam pesan itu olehnya contentIndex (lihat hasil informasi sensitif).

Peran tersebut memberi label asal konten. Peran berikut didukung:

system— Instruksi yang mengkonfigurasi perilaku model.
user— Masukan dari pengguna akhir.
assistant— Output yang dihasilkan oleh model.

Jenis blok konten

contentBidang adalah array blok yang diketik daripada string biasa. Blok yang diketik adalah objek kecil yang nama kuncinya tipenya. Desain ini memungkinkan format pesan membawa jenis konten lain (seperti gambar atau dokumen) di masa depan tanpa mengubah bentuk pesan secara keseluruhan. Saat ini, satu-satunya jenis blok yang didukung adalahtext, yang nilainya adalah string kosong:


{ "text": "Hello world" }

Sebuah pesan dapat berisi paling banyak sepuluh blok konten. Blok konten dapat berisi paling banyak satu text blok. Karena text merupakan satu-satunya jenis yang didukung saat ini, ini secara efektif berarti satu blok teks per blok konten. Untuk mengevaluasi beberapa potongan teks yang berbeda dalam satu peran, kirimkan sebagai blok konten terpisah dalam content array. Untuk mengevaluasi beberapa potongan teks yang berbeda di beberapa peran, kirimkan sebagai pesan terpisah dalam messages array.

Cek

Istilah cek dapat dipertukarkan dengan istilah perlindungan yang ditawarkan oleh Amazon Bedrock Guardrails. checksObjek adalah objek konfigurasi dengan satu bidang opsional per jenis pemeriksaan, dan Anda hanya menyertakan pemeriksaan yang ingin Anda jalankan. Anda tidak menyetel enable/disable tanda terpisah: pemeriksaan berjalan jika dan hanya jika bidangnya ada, dan pemeriksaan yang dihilangkan tidak menghasilkan hasil dan tidak ada penggunaan. Anda harus menetapkan setidaknya satu bidang pemeriksaan.


"checks": {
  "contentFilter":         { ... },
  "promptAttack":          { ... },
  "sensitiveInformation":  { ... }
}

Karena konfigurasi sebaris per permintaan, Anda dapat memvariasikan postur keselamatan Anda dari panggilan ke panggilan tanpa mengelola sumber daya pagar pembatas yang disimpan. Langkah-langkah yang berbeda dalam loop agen dapat meminta kombinasi pemeriksaan yang berbeda terhadap pesan yang sama atau berbeda.

Setiap cek membawa bentuk konfigurasinya sendiri. Nama bidang memilih cek; objek di dalamnya mencantumkan apa yang dicari oleh cek itu:

contentFilter— Mengambil categories daftar (KEBENCIAN, PENGHINAAN, SEKSUAL, KEKERASAN, PELANGGARAN).
promptAttack— Mengambil categories daftar (JAILBREAK, PROMPT_INJECTION, PROMPT_LEAKAGE).
sensitiveInformation— Mengambil entities daftar (31 entitas PII yang didukung).

Permintaan dan respons simetris — Kunci yang Anda tetapkan di bawah checks adalah kunci yang sama yang kembali ke bawah results danusage. Jika Anda meminta contentFilter dansensitiveInformation, hanya keduanya yang muncul dalam respons; tidak promptAttack ada karena tidak pernah dijalankan. Ini membuatnya mudah untuk memetakan temuan kembali ke cek yang menghasilkannya.

Detect-only di setiap pemeriksaan - Tidak ada blok cek, topeng, atau menulis ulang konten. Masing-masing mengembalikan skor (a severityScore untuk filter konten dan serangan cepat, offset lokasi confidenceScore plus untuk informasi sensitif), dan Anda memutuskan bagaimana aplikasi Anda bertindak berdasarkan persyaratan tertentu.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Gunakan InvokeGuardrailChecks API

Definisi skor