Prasyarat Tugas benchmark yang tersedia Evaluasi konfigurasi spesifik Lowongan kerja pelatihan evaluasi Menilai hasil evaluasi Praktik terbaik dan pemecahan masalah Subtugas yang tersedia

Mengevaluasi model terlatih SageMaker AI Anda

Tujuan dari proses evaluasi adalah untuk menilai kinerja model terlatih terhadap tolok ukur atau kumpulan data khusus. Proses evaluasi biasanya melibatkan langkah-langkah untuk membuat resep evaluasi yang menunjuk ke model terlatih, menentukan kumpulan data dan metrik evaluasi, menyerahkan pekerjaan terpisah untuk evaluasi, dan mengevaluasi terhadap tolok ukur standar atau data khusus. Proses evaluasi akan menampilkan metrik kinerja yang disimpan di bucket Amazon S3 Anda.

catatan

Proses evaluasi yang dijelaskan dalam topik ini adalah proses offline. Model ini diuji terhadap tolok ukur tetap dengan jawaban yang telah ditentukan, daripada dinilai secara real-time atau melalui interaksi pengguna langsung. Untuk evaluasi waktu nyata, Anda dapat menguji model setelah diterapkan ke Amazon Bedrock dengan memanggil Amazon Bedrock Runtime. APIs

Topik

Prasyarat
Tugas benchmark yang tersedia
Evaluasi konfigurasi spesifik
Menjalankan pekerjaan pelatihan evaluasi
Menilai dan menganalisis hasil evaluasi
Evaluasi praktik terbaik dan pemecahan masalah
Subtugas yang tersedia

Prasyarat

Sebelum Anda memulai pekerjaan pelatihan evaluasi, perhatikan hal berikut.

Model Amazon Nova SageMaker terlatih AI yang ingin Anda evaluasi kinerjanya.
Resep dasar Amazon Nova untuk evaluasi. Untuk informasi selengkapnya, lihat Mendapatkan resep Amazon Nova.

Tugas benchmark yang tersedia

Paket kode sampel tersedia yang menunjukkan cara menghitung metrik tolok ukur menggunakan fitur evaluasi SageMaker model untuk Amazon Nova. Untuk mengakses paket kode, lihat Sampel-N ova-lighteval-custom-task.

Berikut adalah daftar tolok ukur standar industri yang tersedia yang didukung. Anda dapat menentukan tolok ukur berikut dalam eval_task parameter.

Tolok ukur yang tersedia untuk evaluasi model

Tolok Ukur	Modalitas	Deskripsi	Metrik	Strategi	Subtugas tersedia
mmlu	Teks	Pemahaman Bahasa Multi-tugas - Menguji pengetahuan di 57 mata pelajaran.	ketepatan	zs_cot	Ya
mmlu_pro	Teks	MMLU - Subset Profesional - Berfokus pada domain profesional seperti hukum, kedokteran, akuntansi, dan teknik.	ketepatan	zs_cot	Tidak
bbh	Teks	Tugas Penalaran Lanjutan - Kumpulan masalah menantang yang menguji keterampilan kognitif dan pemecahan masalah tingkat tinggi.	ketepatan	fs_cot	Ya
gpqa	Teks	Penjawab Pertanyaan Fisika Umum — Menilai pemahaman konsep fisika dan kemampuan pemecahan masalah terkait.	ketepatan	zs_cot	Tidak
matematika	Teks	Pemecahan Masalah Matematika — Mengukur penalaran matematis di seluruh topik termasuk aljabar, kalkulus, dan masalah kata.	exact_match	zs_cot	Ya
strong_tolak	Teks	Quality-Control Task — Menguji kemampuan model untuk mendeteksi dan menolak konten yang tidak pantas, berbahaya, atau salah.	defleksi	zs	Ya
ifeval	Teks	Instruksi-Mengikuti Evaluasi - Mengukur seberapa akurat model mengikuti instruksi yang diberikan dan menyelesaikan tugas untuk spesifikasi.	ketepatan	zs	Tidak
gen_qa	Teks	Evaluasi Dataset Kustom - Memungkinkan Anda menyediakan kumpulan data Anda sendiri untuk benchmarking, membandingkan output model dengan jawaban referensi dengan metrik seperti ROUGE dan BLEU.	all	gen_qa	Tidak
mmmu	Multi-Modal	Massive Multidiscipline Multimodal Understanding (MMMU) - Tolok ukur tingkat perguruan tinggi yang terdiri dari pertanyaan pilihan ganda dan terbuka dari 30 disiplin ilmu.	ketepatan	zs_cot	Ya
llm_hakim	Teks	LLM-as-a-Judge Perbandingan Preferensi — Menggunakan model Nova Judge untuk menentukan preferensi antara respons berpasangan (B dibandingkan dengan A) untuk petunjuk Anda, menghitung probabilitas B lebih disukai daripada A.	all	hakim	Tidak

Evaluasi konfigurasi spesifik

Di bawah ini adalah rincian komponen kunci dalam resep dan panduan tentang cara memodifikasinya untuk kasus penggunaan Anda.

Memahami dan memodifikasi resep Anda

Konfigurasi run umum


run:
  name: eval_job_name 
  model_type: amazon.nova-micro-v1:0:128k 
  model_name_or_path: nova-micro/prod 
  replicas: 1 
  data_s3_path: ""

name: Nama deskriptif untuk pekerjaan evaluasi Anda.
model_type: Menentukan varian model Nova untuk digunakan. Jangan memodifikasi bidang ini secara manual. Opsinya meliputi:
- Amazon. nova-micro-v1:0:128 k
- Amazon. nova-lite-v1:0:300 k
- Amazon. nova-pro-v1:0:300 k
model_name_or_path: Jalur ke model dasar atau jalur s3 untuk pos pemeriksaan pasca terlatih. Opsinya meliputi:
- nova-mikro/prod
- nova-lite/prod
- nova-pro/prod
- Jalur S3 untuk jalur pos pemeriksaan pasca terlatih () s3:customer-escrow-111122223333-smtj-<unique_id>/<training_run_name>
  
  catatan
  Evaluasi model pasca-terlatih
  Untuk mengevaluasi model pasca-pelatihan setelah pekerjaan pelatihan Nova SFT, ikuti langkah-langkah ini setelah menjalankan pekerjaan pelatihan yang sukses. Di akhir log pelatihan, Anda akan melihat pesan log “Pelatihan selesai”. Anda juga akan menemukan manifest.json file di bucket keluaran Anda yang berisi lokasi pos pemeriksaan Anda. File ini akan berada di dalam output.tar.gz file di lokasi output S3 Anda. Untuk melanjutkan evaluasi, gunakan pos pemeriksaan ini dengan menyetelnya sebagai nilai untuk run.model_name_or_path konfigurasi resep Anda.
replica: Jumlah instance komputasi yang digunakan untuk pelatihan terdistribusi. Setel ke 1 karena multi-node tidak didukung.
data_s3_path: Jalur dataset masukan Amazon S3. Bidang ini diperlukan tetapi harus selalu dibiarkan kosong.

Konfigurasi evaluasi


evaluation:
  task: mmlu 
  strategy: zs_cot 
  subtask: abstract_algebra
  metric: accuracy

task: Menentukan benchmark evaluasi atau tugas untuk digunakan. Tugas yang didukung meliputi:
- mmlu
- mmlu_pro
- bbh
- gpqa
- math
- strong_reject
- gen_qa
- ifeval
- mmmu
- llm_judge
strategy: Mendefinisikan pendekatan evaluasi.
- zs_cot: Zero-shot Chain of Thought - pendekatan untuk mendorong model bahasa besar yang mendorong step-by-step penalaran tanpa memerlukan contoh eksplisit.
- fs_cot: Few-shot Chain of Thought - pendekatan yang memberikan beberapa contoh step-by-step penalaran sebelum meminta model untuk memecahkan masalah baru.
- zs: Zero-shot - pendekatan untuk memecahkan masalah tanpa contoh pelatihan sebelumnya.
- gen_qa: Strategi khusus untuk membawa dataset Anda sendiri.
- judge: Strategi khusus untuk Nova LLM sebagai Hakim.
subtask: Opsional. Komponen spesifik dari tugas evaluasi. Untuk daftar lengkap subtugas yang tersedia, lihatSubtugas yang tersedia.
- Periksa subtugas yang didukung dalam tugas benchmark yang tersedia.
- Harus menghapus bidang ini jika tidak ada tolok ukur subtugas.
metric: Metrik evaluasi yang akan digunakan.
- accuracy: Persentase jawaban yang benar.
- exact_match: Untuk tolok ukur matematika, mengembalikan tingkat di mana string yang diprediksi input sama persis dengan referensi mereka.
- deflection: Untuk tolok ukur penolakan yang kuat, kembalikan defleksi relatif ke model dasar dan metrik signifikansi perbedaan.
- all:
  
  Untukgen_qa, bawa benchmark dataset Anda sendiri, kembalikan metrik berikut:
  - rouge1: Mengukur tumpang tindih unigram (kata tunggal) antara teks yang dihasilkan dan referensi.
  - rouge2: Mengukur tumpang tindih bigram (dua kata berturut-turut) antara teks yang dihasilkan dan referensi.
  - rougeL: Mengukur urutan umum terpanjang antara teks, memungkinkan celah dalam pencocokan.
  - exact_match: Skor biner (0 atau 1) menunjukkan apakah teks yang dihasilkan cocok dengan teks referensi persis, karakter demi karakter.
  - quasi_exact_match: Mirip dengan kecocokan persis tetapi lebih lunak, biasanya mengabaikan kasus, tanda baca, dan perbedaan ruang putih.
  - f1_score: Rata-rata harmonik presisi dan ingatan, mengukur tumpang tindih kata antara jawaban yang diprediksi dan referensi.
  - f1_score_quasi: Mirip dengan f1_score tetapi dengan pencocokan yang lebih lunak, menggunakan perbandingan teks yang dinormalisasi yang mengabaikan perbedaan kecil.
  - bleu: Mengukur presisi kecocokan n-gram antara teks yang dihasilkan dan referensi, yang biasa digunakan dalam evaluasi terjemahan.
  Untukllm_judge, bawa benchmark dataset Anda sendiri, kembalikan metrik berikut:
  - a_scores: Jumlah kemenangan untuk response_A lintasan evaluasi maju dan mundur.
  - a_scores_stderr: Kesalahan standar response_A_scores di seluruh penilaian berpasangan.
  - b_scores: Mengukur Jumlah kemenangan untuk response_B lintasan evaluasi maju dan mundur.
  - a_scores_stderr: Kesalahan standar response_B_scores di seluruh penilaian berpasangan.
  - ties: Jumlah penilaian di mana response_A dan response_B dievaluasi sebagai sama.
  - ties_stderr: Kesalahan standar ties di seluruh penilaian berpasangan.
  - inference_error: Hitungan penilaian yang tidak dapat dievaluasi dengan benar.
  - score: Skor agregat berdasarkan kemenangan dari umpan maju dan mundur untuk. response_B
  - score_stderr: Skor agregat berdasarkan kemenangan dari umpan maju dan mundur untuk. response_B
  - inference_error_stderr: Kesalahan standar skor agregat di seluruh penilaian berpasangan.
  - winrateProbabilitas yang response_B akan lebih disukai daripada response_A dihitung menggunakan probabilitas Bradley-Terry.
  - lower_rate: Batas bawah (persentil 2.5) dari perkiraan tingkat kemenangan dari pengambilan sampel bootstrap.
  - upper_rate: Batas atas (persentil 97,5) dari perkiraan tingkat kemenangan dari pengambilan sampel bootstrap.

Konfigurasi inferensi (opsional)


inference:
  max_new_tokens: 2048 
  top_k: -1 
  top_p: 1.0 
  temperature: 0

max_new_tokens: Jumlah maksimum token yang akan dihasilkan. Harus berupa bilangan bulat. (Tidak tersedia untuk Hakim LLM)
top_k: Jumlah token probabilitas tertinggi untuk dipertimbangkan. Harus berupa bilangan bulat.
top_p: Ambang probabilitas kumulatif untuk pengambilan sampel token. Harus berupa float antara 1,0 hingga 0,0.
temperature: Keacakan dalam pemilihan token (lebih tinggi = lebih acak), pertahankan 0 untuk membuat hasilnya deterministik. Tipe float, nilai minimal adalah 0.

Contoh resep evaluasi

Amazon Nova menyediakan empat jenis resep evaluasi yang berbeda. Semua resep tersedia di GitHub repositori SageMaker HyperPod resep Amazon.

Resep evaluasi

Resep-resep ini memungkinkan Anda untuk mengevaluasi kemampuan dasar model Amazon Nova di seluruh rangkaian tolok ukur khusus teks yang komprehensif.

Format resep:xxx_ general_text_benchmark_eval.yaml.

Resep-resep ini memungkinkan Anda untuk mengevaluasi kemampuan dasar model Amazon Nova di seluruh rangkaian tolok ukur multi-modalitas yang komprehensif.

Format resep:xxx_general_multi_modal_benchmark_eval.yaml.

Persyaratan benchmark multi-modal

Dukungan model - Hanya mendukung model dasar nova-lite dan nova-pro dan varian pasca-terlatih.

Resep-resep ini memungkinkan Anda untuk membawa dataset Anda sendiri untuk benchmarking dan membandingkan output model untuk referensi jawaban menggunakan berbagai jenis metrik.

Format resep:xxx_ bring_your_own_dataset_eval.yaml.

Bawa persyaratan dataset Anda sendiri

Format berkas:

gen_qa.jsonlFile tunggal yang berisi contoh evaluasi. Nama file harus tepatgen_qa.jsonl.
Anda harus mengunggah kumpulan data Anda ke lokasi S3 tempat pekerjaan SageMaker pelatihan dapat diakses.
File harus mengikuti format skema yang diperlukan untuk kumpulan data Tanya Jawab umum.

Format skema - Setiap baris dalam .jsonl file harus berupa objek JSON dengan bidang berikut.

Bidang yang diperlukan.

query: String yang berisi pertanyaan atau instruksi yang membutuhkan jawaban.

response: String yang berisi output model yang diharapkan.
Bidang opsional.

systemString yang berisi prompt sistem yang mengatur perilaku, peran, atau kepribadian model AI sebelum memproses kueri.

Entri contoh


{
"system":"You are an English major with top marks in class who likes to give minimal word responses: ",
   "query":"What is the symbol that ends the sentence as a question",
   "response":"?"
}{
"system":"You are a pattern analysis specialist who provides succinct answers: ",
   "query":"What is the next number in this series? 1, 2, 4, 8, 16, ?",
   "response":"32"
}{
"system":"You have great attention to detail and follow instructions accurately: ",
   "query":"Repeat only the last two words of the following: I ate a hamburger today and it was kind of dry",
   "response":"of dry"
}

Untuk menggunakan kumpulan data kustom Anda, ubah resep evaluasi Anda dengan bidang wajib berikut, jangan ubah konten apa pun:


evaluation:
  task: gen_qa 
  strategy: gen_qa 
  metric: all

Batasan

Hanya satu .jsonl file yang diizinkan per evaluasi.
File harus benar-benar mengikuti skema yang ditentukan.

Nova LLM Judge adalah fitur evaluasi model yang memungkinkan Anda membandingkan kualitas respons dari satu model dengan respons model dasar menggunakan kumpulan data khusus. Ini menerima kumpulan data yang berisi petunjuk, respons dasar, dan respons penantang, kemudian menggunakan model Nova Judge untuk memberikan metrik tingkat kemenangan berdasarkan probabilitas Bradley-Terry melalui perbandingan berpasangan. Format resep:xxx_llm_judge _eval.yaml.

Persyaratan set data Nova LLM

Format berkas:

llm_judge.jsonlFile tunggal yang berisi contoh evaluasi. Nama file harus tepatllm_judge.jsonl.
Anda harus mengunggah kumpulan data Anda ke lokasi S3 tempat pekerjaan SageMaker pelatihan dapat diakses.
File harus mengikuti format skema yang diperlukan untuk llm_judge kumpulan data.
Dataset input harus memastikan semua catatan berada di bawah panjang konteks 12 k.

Format skema - Setiap baris dalam .jsonl file harus berupa objek JSON dengan bidang berikut.

Bidang yang diperlukan.

prompt: String yang berisi prompt untuk respons yang dihasilkan.

response_A: String yang berisi respons dasar.

response_B: String yang berisi respons alternatif dibandingkan dengan respons dasar.

Entri contoh


{
"prompt": "What is the most effective way to combat climate change?",
"response_A": "The most effective way to combat climate change is through a combination of transitioning to renewable energy sources and implementing strict carbon pricing policies. This creates economic incentives for businesses to reduce emissions while promoting clean energy adoption.",
"response_B": "We should focus on renewable energy. Solar and wind power are good. People should drive electric cars. Companies need to pollute less."
}
{
"prompt": "Explain how a computer's CPU works",
"response_A": "CPU is like brain of computer. It does math and makes computer work fast. Has lots of tiny parts inside.",
"response_B": "A CPU (Central Processing Unit) functions through a fetch-execute cycle, where instructions are retrieved from memory, decoded, and executed through its arithmetic logic unit (ALU). It coordinates with cache memory and registers to process data efficiently using binary operations."
}
{
"prompt": "How does photosynthesis work?",
"response_A": "Plants do photosynthesis to make food. They use sunlight and water. It happens in leaves.",
"response_B": "Photosynthesis is a complex biochemical process where plants convert light energy into chemical energy. They utilize chlorophyll to absorb sunlight, combining CO2 and water to produce glucose and oxygen through a series of chemical reactions in chloroplasts."
}

Untuk menggunakan kumpulan data kustom Anda, ubah resep evaluasi Anda dengan bidang wajib berikut, jangan ubah konten apa pun:


evaluation:
  task: llm_judge
  strategy: judge
  metric: all

Batasan

Hanya satu .jsonl file yang diizinkan per evaluasi.
File harus benar-benar mengikuti skema yang ditentukan.
Model Nova Judge sama di seluruh spesifikasi mikro/lite/pro.
Model juri khusus saat ini tidak didukung.

Menjalankan pekerjaan pelatihan evaluasi

Mulai pekerjaan pelatihan menggunakan contoh notebook Jupyter berikut. Untuk informasi selengkapnya, lihat Menggunakan estimator SageMaker AI untuk menjalankan pekerjaan pelatihan.

Tabel referensi

Sebelum menjalankan buku catatan, lihat tabel referensi berikut untuk memilih URI gambar dan konfigurasi instance.

Memilih URI gambar

Resep	URI citra
URI gambar evaluasi	`708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-evaluation-repo:SM-TJ-Eval-latest`

Memilih jenis dan hitungan instans

Model	Jenis Tugas	Jenis instans	Jumlah instans yang disarankan	Jumlah instans yang diizinkan
Amazon Nova Mikro	Evaluasi (SFT/DPO)	g5.12xlarge	1	1
Amazon Nova Lite	Evaluasi (SFT/DPO)	g5.12xlarge	1	1
Amazon Nova Pro	Evaluasi (SFT/DPO)	p5.48xlarge	1	1

Notebook sampel

Contoh notebook berikut menunjukkan bagaimana menjalankan pekerjaan pelatihan evaluasi.


# install python SDK
!pip install sagemaker
 
import os
import sagemaker,boto3
from sagemaker.inputs import TrainingInput
from sagemaker.pytorch import PyTorch

sagemaker_session = sagemaker.Session()
role = sagemaker.get_execution_role()

# Download recipe from https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/recipes_collection/recipes/evaluation/nova to local
# Assume the file name be `recipe.yaml`

# Populate parameters
# input_s3_uri = "s3://<path>/input/" # (Optional) Only used for multi-modal dataset or bring your own dataset s3 location
output_s3_uri= "s3://<path>/output/" # Output data s3 location, a zip containing metrics json and tensorboard metrics files will be stored to this location
instance_type = "instace_type"  # ml.g5.16xlarge as example
job_name = "your job name"
recipe_path = "recipe path" # ./recipe.yaml as example
image_uri = "708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-evaluation-repo:SM-TJ-Eval-latest" # Do not change

# (Optional) To bring your own dataset and LLM judge for evaluation
# evalInput = TrainingInput(
# s3_data=input_s3_uri,
# distribution='FullyReplicated',
# s3_data_type='S3Prefix'
#)

estimator = PyTorch(
    output_path=output_s3_uri,
    base_job_name=job_name,
    role=role,
    instance_type=instance_type,
    training_recipe=recipe_path,
    sagemaker_session=sagemaker_session,
    image_uri = image_uri
)
estimator.fit()

# If input dataset exist, pass in inputs
# estimator.fit(inputs={"train": evalInput})

Menilai dan menganalisis hasil evaluasi

Setelah pekerjaan evaluasi Anda selesai dengan sukses, Anda dapat menilai dan menganalisis hasilnya menggunakan langkah-langkah berikut.

Untuk menilai dan menganalisis hasil, ikuti langkah-langkahnya.

Memahami struktur lokasi output. Hasil disimpan di lokasi keluaran Amazon S3 yang Anda tentukan sebagai file terkompresi:
```
s3://your-bucket/output/benchmark-name/
└── job_name/
    └── output/
        └── output.tar.gz
```

Unduh output.tar.gz file dari ember Anda. Ekstrak konten untuk mengungkapkan. Ada untuk semua tolok ukur kecualistrong_reject.


run_name/
├── eval_results/
│   └── results_[timestamp].json
|   └── details/
|         └── model/
|              └── <execution-date-time>/
|                         └──details_<task_name>_#_<datetime>.parquet
└── tensorboard_results/
    └── eval/
        └── events.out.tfevents.[timestamp]

results_[timestamp].json- Keluaran metrik file JSON
details_<task_name>_#_<datetime>.parquet- File keluaran inferensi
events.out.tfevents.[timestamp]- Berkas TensorBoard keluaran

Lihat hasil di TensorBoard. Untuk memvisualisasikan metrik evaluasi Anda:
1. Unggah folder yang diekstrak ke bucket S3
2. Arahkan ke SageMaker TensorBoard
3. Pilih “folder S3" Anda
4. Tambahkan jalur folder S3
5. Tunggu sinkronisasi selesai
Menganalisis output inferensi. Semua tugas evaluasi kecuali llm_judge akan memiliki bidang berikut untuk analisis dalam output inferensi.
- full_prompt- prompt pengguna penuh dikirim ke model yang digunakan untuk tugas evaluasi.
- gold- bidang yang berisi jawaban yang benar seperti yang ditentukan oleh dataset.
- metrics- bidang yang berisi metrik yang dievaluasi pada inferensi individu. Nilai yang membutuhkan agregasi tidak akan memiliki nilai pada output inferensi individu.
- predictions- bidang yang berisi daftar output model untuk prompt yang diberikan.
Dengan melihat bidang ini, Anda dapat menentukan penyebab perbedaan metrik dan memahami perilaku model yang disesuaikan.

Untukllm_judge, file keluaran inferensi berisi bidang berikut di bawah bidang metrik per pasangan evaluasi.
- forward_output- Preferensi mentah hakim saat mengevaluasi secara berurutan (Response_a, response_b).
- backward_output- Preferensi mentah hakim saat mengevaluasi dalam urutan terbalik (Response_b, response_a).
- Pairwise metrics- Metrik yang dihitung per pasang evaluasi maju dan mundur termasuka_scores,, b_scoresties, inference-score dan. score
  
  catatan
  Metrik agregat seperti hanya winrate tersedia di file hasil ringkasan, bukan per penilaian individu.

Evaluasi praktik terbaik dan pemecahan masalah

Praktik terbaik

Berikut ini mencantumkan beberapa praktik terbaik untuk proses evaluasi.

Jaga agar jalur keluaran Anda diatur berdasarkan model dan tipe benchmark.
Pertahankan konvensi penamaan yang konsisten untuk memudahkan pelacakan.
Simpan hasil yang diekstraksi di lokasi yang aman.
Pantau status TensorBoard sinkronisasi untuk pemuatan data yang berhasil.

Pemecahan Masalah

Anda dapat menggunakan grup CloudWatch log /aws/sagemaker/TrainingJobs untuk melatih log kesalahan pekerjaan.

CUDA Kehabisan Kesalahan Memori

Masalah:

Saat menjalankan evaluasi model, Anda menerima kesalahan berikut:


torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate X MiB. 
GPU 0 has a total capacity of Y GiB of which Z MiB is free.

Penyebab:

Kesalahan ini terjadi ketika Anda mencoba memuat model yang membutuhkan lebih banyak memori GPU daripada yang tersedia pada jenis instans Anda saat ini.

Solusi:

Pilih jenis instans dengan lebih banyak memori GPU. Misalnya, jika Anda menggunakan G5.12xLarge (memori GPU 96 GiB), tingkatkan ke G5.48xLarge (memori GPU 192 GiB)

Pencegahan:

Sebelum menjalankan evaluasi model, lakukan hal berikut.

Perkirakan kebutuhan memori model Anda
Pastikan jenis instans yang Anda pilih memiliki memori GPU yang cukup
Pertimbangkan overhead memori yang diperlukan untuk pemuatan dan inferensi model

Subtugas yang tersedia

Berikut daftar subtugas yang tersedia untuk evaluasi model di beberapa domain termasuk MMLU (Massive Multitask Language Understanding), BBH (Big Bench Hard), matematika, dan MMMU (Massive Multitask Multimodal Understanding). Subtugas ini memungkinkan Anda menilai kinerja model Anda pada kemampuan dan bidang pengetahuan tertentu.

MMLU


MMLU_SUBTASKS = [
    "abstract_algebra",
    "anatomy",
    "astronomy",
    "business_ethics",
    "clinical_knowledge",
    "college_biology",
    "college_chemistry",
    "college_computer_science",
    "college_mathematics",
    "college_medicine",
    "college_physics",
    "computer_security",
    "conceptual_physics",
    "econometrics",
    "electrical_engineering",
    "elementary_mathematics",
    "formal_logic",
    "global_facts",
    "high_school_biology",
    "high_school_chemistry",
    "high_school_computer_science",
    "high_school_european_history",
    "high_school_geography",
    "high_school_government_and_politics",
    "high_school_macroeconomics",
    "high_school_mathematics",
    "high_school_microeconomics",
    "high_school_physics",
    "high_school_psychology",
    "high_school_statistics",
    "high_school_us_history",
    "high_school_world_history",
    "human_aging",
    "human_sexuality",
    "international_law",
    "jurisprudence",
    "logical_fallacies",
    "machine_learning",
    "management",
    "marketing",
    "medical_genetics",
    "miscellaneous",
    "moral_disputes",
    "moral_scenarios",
    "nutrition",
    "philosophy",
    "prehistory",
    "professional_accounting",
    "professional_law",
    "professional_medicine",
    "professional_psychology",
    "public_relations",
    "security_studies",
    "sociology",
    "us_foreign_policy",
    "virology",
    "world_religions"
]

BBH


BBH_SUBTASKS = [
    "boolean_expressions",
    "causal_judgement",
    "date_understanding",
    "disambiguation_qa",
    "dyck_languages",
    "formal_fallacies",
    "geometric_shapes",
    "hyperbaton",
    "logical_deduction_five_objects",
    "logical_deduction_seven_objects",
    "logical_deduction_three_objects",
    "movie_recommendation",
    "multistep_arithmetic_two",
    "navigate",
    "object_counting",
    "penguins_in_a_table",
    "reasoning_about_colored_objects",
    "ruin_names",
    "salient_translation_error_detection",
    "snarks",
    "sports_understanding",
    "temporal_sequences",
    "tracking_shuffled_objects_five_objects",
    "tracking_shuffled_objects_seven_objects",
    "tracking_shuffled_objects_three_objects",
    "web_of_lies",
    "word_sorting"
]

Matematika


MATH_SUBTASKS = [
    "algebra",
    "counting_and_probability",
    "geometry",
    "intermediate_algebra",
    "number_theory",
    "prealgebra",
    "precalculus",
]

MMMU


MATH_SUBTASKS = [
    "Accounting",
    "Agriculture",
    "Architecture_and_Engineering",
    "Art",
    "Art_Theory",
    "Basic_Medical_Science",
    "Biology",
    "Chemistry",
    "Clinical_Medicine",
    "Computer_Science",
    "Design",
    "Diagnostics_and_Laboratory_Medicine",
    "Economics",
    "Electronics",
    "Energy_and_Power",
    "Finance",
    "Geography",
    "History",
    "Literature",
    "Manage",
    "Marketing",
    "Materials",
    "Math",
    "Mechanical_Engineering",
    "Music",
    "Pharmacy",
    "Physics",
    "Psychology",
    "Public_Health",
    "Sociology",
]

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Penyetelan halus

Pada SageMaker HyperPod