Evaluasi model penalaran - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Evaluasi model penalaran

Ikhtisar

Dukungan model penalaran memungkinkan evaluasi dengan model Nova berkemampuan penalaran yang melakukan penalaran internal eksplisit sebelum menghasilkan tanggapan akhir. Fitur ini menggunakan kontrol tingkat API melalui reasoning_effort parameter untuk mengaktifkan atau menonaktifkan fungsionalitas penalaran secara dinamis, berpotensi meningkatkan kualitas respons untuk tugas analitis yang kompleks.

Model yang didukung

  • amazon.nova-2-lite-v 1:0:256 k

Konfigurasi resep

Aktifkan penalaran dengan menambahkan reasoning_effort parameter ke inference bagian resep Anda:

run: name: reasoning-eval-job-name # [MODIFIABLE] Unique identifier for your evaluation job model_type: amazon.nova-2-lite-v1:0:256k # [FIXED] Must be a reasoning-supported model model_name_or_path: nova-lite-2/prod # [FIXED] Path to model checkpoint or identifier replicas: 1 # [MODIFIABLE] Number of replicas for SageMaker Training job data_s3_path: "" # [MODIFIABLE] Leave empty for SageMaker Training job; optional for SageMaker HyperPod job output_s3_path: "" # [MODIFIABLE] Output path for SageMaker HyperPod job (not compatible with SageMaker Training jobs) evaluation: task: mmlu # [MODIFIABLE] Evaluation task strategy: zs_cot # [MODIFIABLE] Evaluation strategy metric: accuracy # [MODIFIABLE] Metric calculation method inference: reasoning_effort: high # [MODIFIABLE] Enables reasoning mode; options: low/high or null to disable max_new_tokens: 32768 # [MODIFIABLE] Maximum tokens to generate, recommended value when reasoning_effort set to high top_k: -1 # [MODIFIABLE] Top-k sampling parameter top_p: 1.0 # [MODIFIABLE] Nucleus sampling parameter temperature: 0 # [MODIFIABLE] Sampling temperature (0 = deterministic)

Menggunakan parameter reasing_effort

reasoning_effortParameter mengontrol perilaku penalaran untuk model berkemampuan penalaran.

Prasyarat

  • Kompatibilitas model - Set reasoning_effort hanya ketika model_type menentukan model berkemampuan penalaran (saat ini) amazon.nova-2-lite-v1:0:256k

  • Penanganan kesalahan - Menggunakan reasoning_effort dengan model yang tidak didukung akan gagal ConfigValidationError: "Reasoning mode is enabled but model '{model_type}' does not support reasoning. Please use a reasoning-capable model or disable reasoning mode."

Pilihan yang tersedia

Opsi Perilaku Batas token Kasus penggunaan
null (default) Menonaktifkan mode penalaran N/A Evaluasi standar tanpa overhead penalaran
rendah Memungkinkan penalaran dengan kendala 4.000 token untuk penalaran internal Skenario yang membutuhkan penalaran ringkas; mengoptimalkan kecepatan dan biaya
tinggi Memungkinkan penalaran tanpa kendala Tidak ada batasan token pada penalaran internal Masalah kompleks yang membutuhkan analisis dan step-by-step penalaran ekstensif
Metode pelatihan Pilihan yang tersedia Cara mengkonfigurasi
SFT (Penyetelan Penyesuaian yang Diawasi) Tinggi atau Mati saja Gunakan reasing_enabled: true (high) atau reasoning_enabled: false (off)
RFT (Penguatan Fine-Tuning) Rendah, Tinggi, atau Mati Gunakan reasoning_effort: low atau reasoning_effort: high. Hilangkan bidang untuk menonaktifkan.
Evaluasi Rendah, Tinggi, atau Mati Gunakan reasoning_effort: low atau reasoning_effort: high. Gunakan null untuk menonaktifkan.

Kapan mengaktifkan penalaran

Gunakan mode penalaran (lowatauhigh) untuk

  • Tugas pemecahan masalah yang kompleks (matematika, teka-teki logika, pengkodean)

  • Pertanyaan analitis multi-langkah yang membutuhkan penalaran menengah

  • Tugas di mana penjelasan atau step-by-step pemikiran terperinci meningkatkan akurasi

  • Skenario di mana kualitas respons diprioritaskan daripada kecepatan

Gunakan mode non-penalaran (nullatau hilangkan parameter) untuk

  • Pertanyaan & J sederhana atau pertanyaan faktual

  • Tugas menulis kreatif

  • Ketika waktu respons yang lebih cepat sangat penting

  • Pembandingan kinerja di mana overhead penalaran harus dikecualikan

  • Optimalisasi biaya saat penalaran tidak meningkatkan kinerja tugas

Pemecahan masalah

Kesalahan: “Mode penalaran diaktifkan tetapi model tidak mendukung penalaran”

Penyebab: reasoning_effort Parameter disetel ke nilai non-null, tetapi yang ditentukan model_type tidak mendukung penalaran.

Resolusi:

  • Verifikasi jenis model Anda amazon.nova-2-lite-v1:0:256k

  • Jika menggunakan model yang berbeda, beralihlah ke model berkemampuan penalaran atau hapus reasoning_effort parameter dari resep Anda