Evaluasi model RFT Anda - Amazon Bedrock

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Evaluasi model RFT Anda

Setelah pekerjaan fine-tuning penguatan Anda berhasil diselesaikan, Anda dapat mengevaluasi kinerja model kustom Anda menggunakan beberapa metode penilaian. Amazon Bedrock menyediakan alat evaluasi bawaan untuk membantu Anda membandingkan model RFT Anda dengan model dasar dan memvalidasi peningkatan.

Metode evaluasi

Amazon Bedrock menawarkan beberapa cara untuk menilai kinerja model RFT Anda.

Metrik validasi

Jika Anda mengunggah kumpulan data validasi, Anda akan melihat dua grafik tambahan dalam metrik pelatihan.

  • Hadiah validasi - Menunjukkan seberapa baik model Anda menggeneralisasi di luar contoh pelatihan. Skor yang lebih rendah dari hadiah pelatihan adalah normal dan diharapkan.

  • Panjang episode validasi - Panjang respons rata-rata pada data validasi yang tidak terlihat. Menunjukkan seberapa efisien model Anda merespons input baru dibandingkan dengan contoh pelatihan.

Tes di Playground

Gunakan fitur Test in Playground untuk evaluasi cepat dan ad-hoc. Untuk menggunakan fitur Test in Playground, inferensi perlu diatur. Untuk informasi selengkapnya, lihat Menyiapkan inferensi untuk evaluasi.

Alat interaktif ini memungkinkan Anda untuk:

  • Permintaan uji langsung dengan model RFT Anda

  • Bandingkan tanggapan side-by-side antara model kustom Anda dan model dasar

  • Mengevaluasi peningkatan kualitas respons secara real-time

  • Bereksperimenlah dengan petunjuk yang berbeda untuk menilai kemampuan model

Evaluasi Model Batuan Dasar

Gunakan Evaluasi Model Amazon Bedrock untuk menilai model RFT Anda menggunakan kumpulan data Anda sendiri. Ini memberikan analisis kinerja yang komprehensif dengan metrik dan tolok ukur standar. Berikut adalah beberapa contoh manfaat Evaluasi Model Batuan Dasar Amazon.

  • Evaluasi sistematis menggunakan kumpulan data uji kustom

  • Perbandingan kinerja kuantitatif

  • Metrik standar untuk penilaian yang konsisten

  • Integrasi dengan alur kerja evaluasi Amazon Bedrock yang ada

Menyiapkan inferensi untuk evaluasi

Sebelum mengevaluasi model RFT Anda, siapkan inferensi menggunakan salah satu opsi ini:

Inferensi sesuai permintaan

Buat penerapan sesuai permintaan model khusus untuk evaluasi yang fleksibel. pay-per-use Opsi ini mencakup harga berbasis token yang mengenakan biaya berdasarkan jumlah token yang diproses selama inferensi.

Praktik terbaik evaluasi

  • Bandingkan secara sistematis - Selalu evaluasi model RFT Anda terhadap model dasar menggunakan petunjuk pengujian dan kriteria evaluasi yang sama.

  • Gunakan beragam kasus uji - Sertakan berbagai jenis dan skenario prompt yang mewakili kasus penggunaan dunia nyata Anda.

  • Validasi penyelarasan hadiah - Pastikan peningkatan model Anda selaras dengan fungsi hadiah yang digunakan selama pelatihan.

  • Kasus tepi uji - Evaluasi perilaku model pada input yang menantang atau tidak biasa untuk menilai ketahanan.

  • Memantau konsistensi respons - Periksa apakah model Anda memberikan kualitas yang konsisten di beberapa proses dengan petunjuk serupa.