Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Uji kebijakan Penalaran Otomatis
Anda menguji kebijakan dengan mengirimkan pernyataan bahasa alami atau QnAs untuk validasi, kemudian memeriksa Penalaran Otomatis memeriksa umpan balik untuk memastikannya menerjemahkan teks input menggunakan variabel yang tepat dan bahwa aturan yang divalidasi adalah benar.
Anda dapat membuat pengujian dengan dua cara: mendefinisikan pasangan question-and-answer (qnA) secara manual atau secara otomatis menghasilkan skenario pengujian. QnAs adalah pertanyaan pengguna spesifik dengan respons model terkait yang Anda tulis untuk menguji kasus penggunaan tertentu, sementara skenario pengujian adalah situasi logis yang secara otomatis dihasilkan dari aturan kebijakan Anda yang mungkin atau mungkin tidak realistis dalam konteks aplikasi Anda.
catatan
Video tutorial: Untuk step-by-step panduan pengujian kebijakan Penalaran Otomatis, tonton tutorial berikut:
Pengujian harus meniru pertanyaan yang akan diajukan pengguna aplikasi Anda dan tanggapan yang mungkin mereka dapatkan dari model dasar. Penalaran Otomatis menilai akurasi cepat dan respons sehubungan dengan aturan dalam kebijakan Penalaran Otomatis Anda. Penalaran Otomatis melakukan validasi ini dalam langkah-langkah berikut:
Tip
Praktik terbaik: Buat tes yang mencakup skenario yang valid dan tidak valid. Misalnya, jika kebijakan Anda menyatakan “Karyawan membutuhkan 1 tahun layanan untuk cuti orang tua,” buat tes untuk tanggapan yang menyatakan aturan ini dengan benar dan tes untuk tanggapan yang salah menyatakan persyaratan yang berbeda.
-
Menggunakan pertanyaan dan jawaban tes Anda bersama dengan variabel kebijakan Anda dan deskripsinya untuk menerjemahkan input bahasa alami ke dalam logika formal.
-
Memvalidasi logika yang diterjemahkan terhadap kebijakan dengan menggunakan teknik matematika yang baik.
catatan
Penalaran Otomatis menerjemahkan bahasa alami ke dalam logika menggunakan teknik AI yang tidak dapat menjamin akurasi sempurna. Namun pengujian yang baik akan membantu mendeteksi dan memperbaiki kemungkinan ketidakakuratan dalam kebijakan Penalaran Otomatis Anda.
Buat tes secara manual di konsol
-
Buka kebijakan Penalaran Otomatis yang ingin Anda uji (misalnya, MyHrPolicy).
-
Pilih Lihat tes, lalu pilih Tambah.
-
Dalam Tambahkan tes dialog, lakukan hal berikut:
-
Sertakan input (opsional) dan output. Ini mewakili pertanyaan yang mungkin diajukan pengguna dan respons yang mungkin diberikan oleh model foundation Anda - bersama-sama membentuk pasangan QnA yang menguji bagaimana kebijakan Anda memvalidasi interaksi pengguna yang sebenarnya.
-
Pilih hasil yang Anda harapkan dari tes (seperti Valid atau Tidak Valid).
-
Pilih ambang Keyakinan, yang merupakan tingkat kepercayaan minimum untuk validasi logika.
-
-
Pilih Simpan untuk membuat tes.
catatan
Saat membuat tes, ambang kepercayaan adalah opsional.
-
Pemeriksaan Penalaran Otomatis menggunakan beberapa model bahasa besar (LLMs) untuk menerjemahkan tes bahasa alami ke dalam temuan. Ini hanya mengembalikan temuan “percaya diri” yang didukung oleh persentase yang signifikan dari terjemahan LLM. Ambang batas kepercayaan mendefinisikan persentase minimum dukungan yang diperlukan untuk terjemahan untuk menjadi temuan dengan hasil validitas.
-
Jika ada satu atau lebih temuan terjemahan yang tidak didukung oleh persentase terjemahan LLM yang memadai, pemeriksaan Penalaran Otomatis akan memunculkan temuan “TRANSLATION_AMBIGUOUS” tambahan. Temuan ini akan berisi informasi untuk menyoroti perbedaan antara terjemahan LLM yang tidak setuju.
Hasilkan tes secara otomatis di konsol
-
Buka kebijakan Penalaran Otomatis yang ingin Anda uji (misalnya, MyHrPolicy).
-
Pilih Lihat tes, lalu pilih Hasilkan.
-
Dalam dialog Hasilkan skenario, tinjau skenario yang dihasilkan dan aturan terkait. Kemudian lakukan salah satu hal berikut:
-
Jika menurut Anda skenario bisa terjadi (juga dikenal sebagai skenario yang memuaskan), pilih jempol ke atas (ya).
-
Jika tidak, pilih jempol ke bawah (tidak). Anda juga dapat memberikan anotasi untuk menjelaskan mengapa menurut Anda skenario tersebut tidak mungkin. Ini mirip dengan meninggalkan komentar dalam dokumen.
-
Jika Anda ingin skenario yang berbeda untuk diuji, pilih Regenerasi skenario.
Tip
Jika Anda ingin memeriksa versi logika formal skenario, aktifkan Tampilkan SMT-LIB.
-
-
Pilih Simpan dan tutup untuk menyimpan tes atau Simpan dan tambahkan tes lain.
-
Jika Anda memberikan anotasi ke salah satu pengujian, pilih Terapkan anotasi. Penalaran Otomatis akan membuat perubahan pada kebijakan Anda berdasarkan umpan balik Anda.
-
Pada layar Meninjau perubahan kebijakan, tinjau perubahan pada aturan, variabel, dan jenis variabel kebijakan Anda. Kemudian pilih Terima perubahan.
Jalankan tes di konsol
-
Buka kebijakan Penalaran Otomatis yang ingin Anda validasi (misalnya, MyHrPolicy).
-
Pilih Lihat tes.
-
Lakukan salah satu tindakan berikut:
-
Untuk menjalankan semua pengujian kebijakan Anda, pilih Validasi semua pengujian.
-
Untuk menjalankan pengujian satu per satu, pilih tombol Tindakan di sebelah tes yang ingin Anda jalankan dan pilih Validasi.
-
Buat pengujian secara manual menggunakan API
Anda dapat menggunakan operasi CreateAutomatedReasoningPolicyTestCase
API untuk membuat pengujian untuk kebijakan Penalaran Otomatis Anda secara terprogram.
Permintaan parameter
Parameter berikut diperlukan atau opsional saat membuat tes:
policyArn
(diperlukan)-
Nama Sumber Daya Amazon (ARN) dari kebijakan Penalaran Otomatis untuk membuat pengujian.
guardContent
(diperlukan)-
Konten keluaran yang divalidasi oleh kebijakan Penalaran Otomatis. Ini mewakili respons model pondasi yang akan diperiksa akurasinya.
query
(opsional)-
Kueri input atau prompt yang menghasilkan konten. Ini memberikan konteks untuk validasi.
expectedAggregatedFindingsResult
(opsional)-
Hasil validasi yang diharapkan untuk pengujian (misalnya,
VALID
atauINVALID
). confidenceThreshold
(opsional)-
Tingkat kepercayaan minimum untuk validasi logika. Konten yang memenuhi ambang batas dianggap sebagai temuan kepercayaan tinggi yang dapat divalidasi.
Contoh
Contoh berikut menunjukkan cara membuat pengujian untuk kebijakan Penalaran Otomatis menggunakan: AWS CLI
aws bedrock create-automated-reasoning-policy-test-case \ --policy-arn "arn:aws:bedrock:us-west-2:123456789012:automated-reasoning-policy/k8m9n2p4q7r5" \ --query-content "Can I take a leave of absence if I'm a part-time employee?" \ --guard-content "No, only full-time employees are eligible for leave of absence." \ --expected-aggregated-findings-result "VALID" \ --confidence-threshold 0.8
Contoh respons:
{ "testCaseId": "test-12345abcde", "policyArn": "arn:aws:bedrock:us-west-2:123456789012:automated-reasoning-policy/k8m9n2p4q7r5" }
Hasilkan pengujian secara otomatis menggunakan API
Anda dapat menggunakan operasi GenerateAutomatedReasoningPolicyTestScenarios
API untuk membuat skenario pengujian secara otomatis berdasarkan aturan kebijakan Anda.
Permintaan parameter
Parameter berikut diperlukan atau opsional saat membuat skenario pengujian:
policyArn
(diperlukan)-
Nama Sumber Daya Amazon (ARN) dari kebijakan Penalaran Otomatis untuk menghasilkan skenario pengujian.
maxResults
(opsional)-
Jumlah maksimum skenario pengujian yang akan dihasilkan.
Contoh
Contoh berikut menunjukkan cara membuat skenario pengujian untuk kebijakan Penalaran Otomatis menggunakan: AWS CLI
aws bedrock generate-automated-reasoning-policy-test-scenarios \ --policy-arn "arn:aws:bedrock:us-west-2:123456789012:automated-reasoning-policy/k8m9n2p4q7r5" \ --max-results 3
Respons akan mencakup skenario pengujian yang dihasilkan yang dapat Anda tinjau dan gunakan untuk membuat tes.
Jalankan pengujian menggunakan API
Anda dapat menggunakan operasi ValidateAutomatedReasoningPolicyTest
API untuk menjalankan pengujian kebijakan Penalaran Otomatis dan GetAutomatedReasoningPolicyTestResult
operasi untuk mengambil hasilnya.
Permintaan parameter
Parameter berikut diperlukan saat menjalankan tes:
policyArn
(diperlukan)-
Nama Sumber Daya Amazon (ARN) dari kebijakan Penalaran Otomatis.
testCaseId
(diperlukan)-
Pengidentifikasi unik dari pengujian yang akan dijalankan.
Dapatkan hasil tes
Untuk mengambil hasil tes, gunakan parameter berikut:
policyArn
(diperlukan)-
Nama Sumber Daya Amazon (ARN) dari kebijakan Penalaran Otomatis.
buildWorkflowId
(diperlukan)-
Pengidentifikasi alur kerja build. Alur kerja build harus menampilkan
COMPLETED
status untuk mendapatkan hasil. testCaseId
(diperlukan)-
Pengidentifikasi unik dari tes untuk mengambil hasil.
Contoh
Contoh berikut menunjukkan cara menjalankan tes dan mengambil hasil menggunakan: AWS CLI
# Run the test aws bedrock validate-automated-reasoning-policy-test \ --policy-arn "arn:aws:bedrock:us-west-2:123456789012:automated-reasoning-policy/k8m9n2p4q7r5" \ --test-case-id "test-12345abcde" # Get the test results aws bedrock get-automated-reasoning-policy-test-result \ --policy-arn "arn:aws:bedrock:us-west-2:123456789012:automated-reasoning-policy/k8m9n2p4q7r5" \ --build-workflow-id "workflow-67890fghij" \ --test-case-id "test-12345abcde"
Tanggapan akan mencakup hasil tes terperinci dengan temuan validasi dan status eksekusi.