Memahami parameter resep

Jalankan konfigurasi

Berikut ini adalah konfigurasi run umum dan penjelasan tentang parameter yang terlibat.


run:
  name: eval_job_name
  model_type: amazon.nova-micro-v1:0:128k
  model_name_or_path: nova-micro/prod
  replicas: 1
  data_s3_path: ""
  output_s3_path: s3://output_path
  mlflow_tracking_uri: ""
  mlflow_experiment_name : ""
  mlflow_run_name : ""

name: (Wajib) Nama deskriptif untuk pekerjaan evaluasi Anda. Ini membantu mengidentifikasi pekerjaan Anda di AWS konsol.
model_type: (Wajib) Menentukan varian model Amazon Nova yang akan digunakan. Jangan memodifikasi bidang ini secara manual. Opsinya meliputi:
- amazon.nova-micro-v1:0:128k
- amazon.nova-lite-v1:0:300k
- amazon.nova-pro-v1:0:300k
- amazon.nova-2-lite-v1:0:256k
model_name_or_path: (Wajib) Jalur ke model dasar atau jalur S3 untuk pos pemeriksaan pasca-terlatih. Opsinya meliputi:
- nova-micro/prod
- nova-lite/prod
- nova-pro/prod
- nova-lite-2/prod
- (Jalur S3 untuk pos pemeriksaan pasca-terlatih) s3://<escrow bucket>/<job id>/outputs/checkpoints
replicas: (Wajib) Jumlah instance komputasi yang akan digunakan untuk pelatihan terdistribusi. Anda harus menetapkan nilai ini ke 1 karena multi-node tidak didukung.
data_s3_path: (Wajib) Jalur S3 ke dataset input. Biarkan parameter ini kosong kecuali Anda menggunakan set data atau LLM bawa sendiri sebagai resep juri.
output_s3_path: (Wajib) Jalur S3 untuk menyimpan artefak evaluasi keluaran. Perhatikan bahwa bucket output S3 harus dibuat oleh akun yang sama yang membuat pekerjaan.
mlflow_tracking_uri: (Opsional) server MLflow pelacakan ARN untuk melacak MLFlow jalanan/eksperimen. Pastikan Anda memiliki izin untuk mengakses server pelacakan dari peran eksekusi SageMaker AI

Konfigurasi evaluasi

Berikut ini adalah konfigurasi evaluasi model dan penjelasan tentang parameter yang terlibat.


evaluation:
  task: mmlu
  strategy: zs_cot
  subtask: mathematics
  metric: accuracy

task: (Wajib) Menentukan benchmark evaluasi atau tugas untuk digunakan.

Daftar tugas yang didukung:
- mmlu
- mmlu_pro
- bbh
- gpqa
- matematika
- strong_tolak
- gen_qa
- ifeval
- llm_hakim
- kemanusiaan
- mm_llm_hakim
- rubric_llm_judge
- aime_2024
- calendar_scheduling
- kemanusiaan
strategy: (Wajib) Mendefinisikan pendekatan evaluasi:
- zs_cot: Zero-shot Chain-of-Thought - Pendekatan untuk mendorong model bahasa besar yang mendorong penalaran tanpa memerlukan contoh eksplisit. step-by-step
- zs: Zero-shot - Pendekatan untuk memecahkan masalah tanpa contoh pelatihan sebelumnya.
- gen_qa: Strategi khusus untuk bawa resep dataset Anda sendiri.
- hakim: Strategi khusus untuk Amazon Nova LLM sebagai Hakim dan mm_llm_judge.
subtask: (Opsional dan Dapat Dilepas) Menentukan subtugas tertentu untuk tugas evaluasi tertentu. Hapus ini dari resep Anda jika tugas Anda tidak memiliki subtugas.
metric: (Wajib) Metrik evaluasi yang akan digunakan.
- akurasi: Persentase jawaban yang benar
- exact_match: (Untuk math benchmark), mengembalikan tingkat di mana string yang diprediksi input sama persis dengan referensi mereka.
- defleksi: (Untuk strong reject benchmark), mengembalikan defleksi relatif ke model dasar dan perbedaan metrik signifikansi.
- pass @1: (Untuk humaneval benchmark) adalah metrik yang digunakan untuk mengukur persentase kasus di mana prediksi kepercayaan tertinggi model cocok dengan jawaban yang benar.
- all: Mengembalikan metrik berikut:
  - Untuk gen_qa dan bawa benchmark dataset Anda sendiri, kembalikan metrik berikut:
    
    rouge1: Mengukur tumpang tindih unigram (kata tunggal) antara teks yang dihasilkan dan referensi.
    
    rouge2: Mengukur tumpang tindih bigram (dua kata berturut-turut) antara teks yang dihasilkan dan referensi.
    
    rougeL: Mengukur urutan umum terpanjang antara teks, memungkinkan celah dalam pencocokan.
    
    exact_match: Skor biner (0 atau 1) menunjukkan apakah teks yang dihasilkan cocok dengan teks referensi persis, karakter demi karakter.
    
    quasi_exact_match: Mirip dengan kecocokan persis tetapi lebih lunak, biasanya mengabaikan kasus, tanda baca, dan perbedaan ruang putih.
    
    f1_score: Rata-rata harmonik presisi dan ingatan, mengukur tumpang tindih kata antara jawaban yang diprediksi dan referensi.
    
    f1_score_quasi: Mirip dengan f1_score tetapi dengan pencocokan yang lebih lunak, menggunakan perbandingan teks yang dinormalisasi yang mengabaikan perbedaan kecil.
    
    bleu: Mengukur presisi kecocokan n-gram antara teks yang dihasilkan dan referensi, yang biasa digunakan dalam evaluasi terjemahan.
  - Untuk llm_judge danmm_llm_judge, bawa benchmark dataset Anda sendiri, kembalikan metrik berikut:
    
    a_scores: Jumlah kemenangan untuk response_A lintasan evaluasi maju dan mundur.
    
    a_scores_stderr: Kesalahan standar response_A scores lintas penilaian berpasangan.
    
    b_scores: Jumlah kemenangan untuk response_B lintasan evaluasi maju dan mundur.
    
    b_scores_stderr: Kesalahan standar response_B scores lintas penilaian berpasangan.
    
    ties: Jumlah penilaian di mana response_A dan response_B dievaluasi sebagai sama.
    
    ties_stderr: Kesalahan standar ikatan di seluruh penilaian berpasangan.
    
    inference_error: Hitungan penilaian yang tidak dapat dievaluasi dengan benar.
    
    inference_error_stderr: Kesalahan standar kesalahan inferensi di seluruh penilaian.
    
    score: Skor agregat berdasarkan kemenangan dari umpan maju dan mundur untuk. response_B
    
    score_stderr: Kesalahan standar skor agregat di seluruh penilaian berpasangan.
    
    winrate: probabilitas bahwa response_B akan lebih disukai daripada response_A dihitung menggunakan probabilitas Bradley-Terry.
    
    lower_rate: Batas bawah (persentil 2.5) dari perkiraan tingkat kemenangan dari pengambilan sampel bootstrap.

Konfigurasi inferensi

Berikut ini adalah konfigurasi inferensi dan penjelasan tentang parameter yang terlibat. Semua parameter bersifat opsional.


inference:
  max_new_tokens: 200
  top_k: -1
  top_p: 1.0
  temperature: 0
  top_logprobs: 10
  reasoning_effort: null  # options: low/high to enable reasoning or null to disable reasoning

max_new_tokens: Jumlah maksimum token yang akan dihasilkan. Ini harus berupa bilangan bulat.
top_k: Jumlah token probabilitas tertinggi untuk dipertimbangkan. Ini harus berupa bilangan bulat.
top_p: Ambang probabilitas kumulatif untuk pengambilan sampel token. Ini harus berupa float antara 0,0 dan 1,0, inklusif.
temperature: Keacakan dalam pemilihan token. Nilai yang lebih besar memperkenalkan lebih banyak keacakan. Gunakan 0 untuk membuat hasil deterministik. Nilai ini harus berupa float dengan nilai minimum 0.
top_logprobs: Jumlah logprob teratas yang akan dikembalikan dalam respons inferensi. Nilai ini harus berupa bilangan bulat dari 0 hingga 20. Logprobs berisi token keluaran yang dipertimbangkan dan probabilitas log dari setiap token keluaran yang dikembalikan dalam konten pesan.
reasoning_effort: mengontrol perilaku penalaran untuk model yang mampu beralasan. Tetapkan reasoning_effort hanya ketika model_type menentukan model berkemampuan penalaran (saat ini). amazon.nova-2-lite-v1:0:256k Opsi yang tersedia adalah null (nilai default jika tidak disetel; menonaktifkan penalaran),low, atau. high

Perhatikan bahwa untukhumaneval, kami merekomendasikan konfigurasi inferensi berikut:


inference:
  top_k: 1
  max_new_tokens: 1600
  temperature: 0.0

MLFlow konfigurasi

Berikut ini adalah MLFlow konfigurasi dan penjelasan tentang parameter yang terlibat. Semua parameter bersifat opsional.


run:
  mlflow_tracking_uri: ""
  mlflow_experiment_name: ""
  mlflow_run_name: ""

mlflow_tracking_uri: Opsional) Lokasi server MLflow pelacak (hanya diperlukan di SMHP)
mlflow_experiment_name: (Opsional) Nama percobaan untuk mengelompokkan ML terkait berjalan bersama
mlflow_run_name: (Opsional) Nama khusus untuk pelatihan tertentu yang dijalankan dalam eksperimen

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Tugas benchmark yang tersedia

Contoh resep evaluasi