Uji kebijakan Penalaran Otomatis - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Uji kebijakan Penalaran Otomatis

Anda menguji kebijakan dengan mengirimkan pernyataan bahasa alami atau QnAs untuk validasi, kemudian memeriksa Penalaran Otomatis memeriksa umpan balik untuk memastikannya menerjemahkan teks input menggunakan variabel yang tepat dan bahwa aturan yang divalidasi adalah benar.

Anda dapat membuat pengujian dengan dua cara: mendefinisikan pasangan question-and-answer (qnA) secara manual atau secara otomatis menghasilkan skenario pengujian. QnAs adalah pertanyaan pengguna spesifik dengan respons model terkait yang Anda tulis untuk menguji kasus penggunaan tertentu, sementara skenario pengujian adalah situasi logis yang secara otomatis dihasilkan dari aturan kebijakan Anda yang mungkin atau mungkin tidak realistis dalam konteks aplikasi Anda.

catatan

Video tutorial: Untuk step-by-step panduan pengujian kebijakan Penalaran Otomatis, tonton tutorial berikut:

Tutorial Demo 2 - Menguji kebijakan Penalaran Otomatis

Pengujian harus meniru pertanyaan yang akan diajukan pengguna aplikasi Anda dan tanggapan yang mungkin mereka dapatkan dari model dasar. Penalaran Otomatis menilai akurasi cepat dan respons sehubungan dengan aturan dalam kebijakan Penalaran Otomatis Anda. Penalaran Otomatis melakukan validasi ini dalam langkah-langkah berikut:

Tip

Praktik terbaik: Buat tes yang mencakup skenario yang valid dan tidak valid. Misalnya, jika kebijakan Anda menyatakan “Karyawan membutuhkan 1 tahun layanan untuk cuti orang tua,” buat tes untuk tanggapan yang menyatakan aturan ini dengan benar dan tes untuk tanggapan yang salah menyatakan persyaratan yang berbeda.

  1. Menggunakan pertanyaan dan jawaban tes Anda bersama dengan variabel kebijakan Anda dan deskripsinya untuk menerjemahkan input bahasa alami ke dalam logika formal.

  2. Memvalidasi logika yang diterjemahkan terhadap kebijakan dengan menggunakan teknik matematika yang baik.

catatan

Penalaran Otomatis menerjemahkan bahasa alami ke dalam logika menggunakan teknik AI yang tidak dapat menjamin akurasi sempurna. Namun pengujian yang baik akan membantu mendeteksi dan memperbaiki kemungkinan ketidakakuratan dalam kebijakan Penalaran Otomatis Anda.

Buat tes secara manual di konsol

  1. Buka kebijakan Penalaran Otomatis yang ingin Anda uji (misalnya, MyHrPolicy).

  2. Pilih Lihat tes, lalu pilih Tambah.

  3. Dalam Tambahkan tes dialog, lakukan hal berikut:

    1. Sertakan input (opsional) dan output. Ini mewakili pertanyaan yang mungkin diajukan pengguna dan respons yang mungkin diberikan oleh model foundation Anda - bersama-sama membentuk pasangan QnA yang menguji bagaimana kebijakan Anda memvalidasi interaksi pengguna yang sebenarnya.

    2. Pilih hasil yang Anda harapkan dari tes (seperti Valid atau Tidak Valid).

    3. Pilih ambang Keyakinan, yang merupakan tingkat kepercayaan minimum untuk validasi logika.

  4. Pilih Simpan untuk membuat tes.

catatan

Saat membuat tes, ambang kepercayaan adalah opsional.

  • Pemeriksaan Penalaran Otomatis menggunakan beberapa model bahasa besar (LLMs) untuk menerjemahkan tes bahasa alami ke dalam temuan. Ini hanya mengembalikan temuan “percaya diri” yang didukung oleh persentase yang signifikan dari terjemahan LLM. Ambang batas kepercayaan mendefinisikan persentase minimum dukungan yang diperlukan untuk terjemahan untuk menjadi temuan dengan hasil validitas.

  • Jika ada satu atau lebih temuan terjemahan yang tidak didukung oleh persentase terjemahan LLM yang memadai, pemeriksaan Penalaran Otomatis akan memunculkan temuan “TRANSLATION_AMBIGUOUS” tambahan. Temuan ini akan berisi informasi untuk menyoroti perbedaan antara terjemahan LLM yang tidak setuju.

Hasilkan tes secara otomatis di konsol

  1. Buka kebijakan Penalaran Otomatis yang ingin Anda uji (misalnya, MyHrPolicy).

  2. Pilih Lihat tes, lalu pilih Hasilkan.

  3. Dalam dialog Hasilkan skenario, tinjau skenario yang dihasilkan dan aturan terkait. Kemudian lakukan salah satu hal berikut:

    • Jika menurut Anda skenario bisa terjadi (juga dikenal sebagai skenario yang memuaskan), pilih jempol ke atas (ya).

    • Jika tidak, pilih jempol ke bawah (tidak). Anda juga dapat memberikan anotasi untuk menjelaskan mengapa menurut Anda skenario tersebut tidak mungkin. Ini mirip dengan meninggalkan komentar dalam dokumen.

    • Jika Anda ingin skenario yang berbeda untuk diuji, pilih Regenerasi skenario.

    Tip

    Jika Anda ingin memeriksa versi logika formal skenario, aktifkan Tampilkan SMT-LIB.

  4. Pilih Simpan dan tutup untuk menyimpan tes atau Simpan dan tambahkan tes lain.

  5. Jika Anda memberikan anotasi ke salah satu pengujian, pilih Terapkan anotasi. Penalaran Otomatis akan membuat perubahan pada kebijakan Anda berdasarkan umpan balik Anda.

  6. Pada layar Meninjau perubahan kebijakan, tinjau perubahan pada aturan, variabel, dan jenis variabel kebijakan Anda. Kemudian pilih Terima perubahan.

Jalankan tes di konsol

  1. Buka kebijakan Penalaran Otomatis yang ingin Anda validasi (misalnya, MyHrPolicy).

  2. Pilih Lihat tes.

  3. Lakukan salah satu tindakan berikut:

    • Untuk menjalankan semua pengujian kebijakan Anda, pilih Validasi semua pengujian.

    • Untuk menjalankan pengujian satu per satu, pilih tombol Tindakan di sebelah tes yang ingin Anda jalankan dan pilih Validasi.

Buat pengujian secara manual menggunakan API

Anda dapat menggunakan operasi CreateAutomatedReasoningPolicyTestCase API untuk membuat pengujian untuk kebijakan Penalaran Otomatis Anda secara terprogram.

Permintaan parameter

Parameter berikut diperlukan atau opsional saat membuat tes:

policyArn(diperlukan)

Nama Sumber Daya Amazon (ARN) dari kebijakan Penalaran Otomatis untuk membuat pengujian.

guardContent(diperlukan)

Konten keluaran yang divalidasi oleh kebijakan Penalaran Otomatis. Ini mewakili respons model pondasi yang akan diperiksa akurasinya.

query (opsional)

Kueri input atau prompt yang menghasilkan konten. Ini memberikan konteks untuk validasi.

expectedAggregatedFindingsResult (opsional)

Hasil validasi yang diharapkan untuk pengujian (misalnya, VALID atauINVALID).

confidenceThreshold (opsional)

Tingkat kepercayaan minimum untuk validasi logika. Konten yang memenuhi ambang batas dianggap sebagai temuan kepercayaan tinggi yang dapat divalidasi.

Contoh

Contoh berikut menunjukkan cara membuat pengujian untuk kebijakan Penalaran Otomatis menggunakan: AWS CLI

aws bedrock create-automated-reasoning-policy-test-case \ --policy-arn "arn:aws:bedrock:us-west-2:123456789012:automated-reasoning-policy/k8m9n2p4q7r5" \ --query-content "Can I take a leave of absence if I'm a part-time employee?" \ --guard-content "No, only full-time employees are eligible for leave of absence." \ --expected-aggregated-findings-result "VALID" \ --confidence-threshold 0.8

Contoh respons:

{ "testCaseId": "test-12345abcde", "policyArn": "arn:aws:bedrock:us-west-2:123456789012:automated-reasoning-policy/k8m9n2p4q7r5" }

Hasilkan pengujian secara otomatis menggunakan API

Anda dapat menggunakan operasi GenerateAutomatedReasoningPolicyTestScenarios API untuk membuat skenario pengujian secara otomatis berdasarkan aturan kebijakan Anda.

Permintaan parameter

Parameter berikut diperlukan atau opsional saat membuat skenario pengujian:

policyArn(diperlukan)

Nama Sumber Daya Amazon (ARN) dari kebijakan Penalaran Otomatis untuk menghasilkan skenario pengujian.

maxResults (opsional)

Jumlah maksimum skenario pengujian yang akan dihasilkan.

Contoh

Contoh berikut menunjukkan cara membuat skenario pengujian untuk kebijakan Penalaran Otomatis menggunakan: AWS CLI

aws bedrock generate-automated-reasoning-policy-test-scenarios \ --policy-arn "arn:aws:bedrock:us-west-2:123456789012:automated-reasoning-policy/k8m9n2p4q7r5" \ --max-results 3

Respons akan mencakup skenario pengujian yang dihasilkan yang dapat Anda tinjau dan gunakan untuk membuat tes.

Jalankan pengujian menggunakan API

Anda dapat menggunakan operasi ValidateAutomatedReasoningPolicyTest API untuk menjalankan pengujian kebijakan Penalaran Otomatis dan GetAutomatedReasoningPolicyTestResult operasi untuk mengambil hasilnya.

Permintaan parameter

Parameter berikut diperlukan saat menjalankan tes:

policyArn(diperlukan)

Nama Sumber Daya Amazon (ARN) dari kebijakan Penalaran Otomatis.

testCaseId(diperlukan)

Pengidentifikasi unik dari pengujian yang akan dijalankan.

Dapatkan hasil tes

Untuk mengambil hasil tes, gunakan parameter berikut:

policyArn(diperlukan)

Nama Sumber Daya Amazon (ARN) dari kebijakan Penalaran Otomatis.

buildWorkflowId(diperlukan)

Pengidentifikasi alur kerja build. Alur kerja build harus menampilkan COMPLETED status untuk mendapatkan hasil.

testCaseId(diperlukan)

Pengidentifikasi unik dari tes untuk mengambil hasil.

Contoh

Contoh berikut menunjukkan cara menjalankan tes dan mengambil hasil menggunakan: AWS CLI

# Run the test aws bedrock validate-automated-reasoning-policy-test \ --policy-arn "arn:aws:bedrock:us-west-2:123456789012:automated-reasoning-policy/k8m9n2p4q7r5" \ --test-case-id "test-12345abcde" # Get the test results aws bedrock get-automated-reasoning-policy-test-result \ --policy-arn "arn:aws:bedrock:us-west-2:123456789012:automated-reasoning-policy/k8m9n2p4q7r5" \ --build-workflow-id "workflow-67890fghij" \ --test-case-id "test-12345abcde"

Tanggapan akan mencakup hasil tes terperinci dengan temuan validasi dan status eksekusi.