Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Mengevaluasi model terlatih SageMaker AI Anda
Tujuan dari proses evaluasi adalah untuk menilai kinerja model terlatih terhadap tolok ukur atau kumpulan data khusus. Proses evaluasi biasanya melibatkan langkah-langkah untuk membuat resep evaluasi yang menunjuk ke model terlatih, menentukan kumpulan data dan metrik evaluasi, menyerahkan pekerjaan terpisah untuk evaluasi, dan mengevaluasi terhadap tolok ukur standar atau data khusus. Proses evaluasi akan menampilkan metrik kinerja yang disimpan di bucket Amazon S3 Anda.
catatan
Proses evaluasi yang dijelaskan dalam topik ini adalah proses offline. Model ini diuji terhadap tolok ukur tetap dengan jawaban yang telah ditentukan, daripada dinilai secara real-time atau melalui interaksi pengguna langsung. Untuk evaluasi waktu nyata, Anda dapat menguji model setelah diterapkan ke Amazon Bedrock dengan memanggil Amazon Bedrock Runtime. APIs
Topik
Prasyarat
Sebelum Anda memulai pekerjaan pelatihan evaluasi, perhatikan hal berikut.
-
Model Amazon Nova SageMaker terlatih AI yang ingin Anda evaluasi kinerjanya.
-
Resep dasar Amazon Nova untuk evaluasi. Untuk informasi selengkapnya, lihat Mendapatkan resep Amazon Nova.
Tugas benchmark yang tersedia
Paket kode sampel tersedia yang menunjukkan cara menghitung metrik tolok ukur menggunakan fitur evaluasi SageMaker model untuk Amazon Nova. Untuk mengakses paket kode, lihat Sampel-N ova-lighteval-custom-task
Berikut adalah daftar tolok ukur standar industri yang tersedia yang didukung. Anda dapat menentukan tolok ukur berikut dalam eval_task
parameter.
Tolok ukur yang tersedia untuk evaluasi model
Tolok Ukur | Modalitas | Deskripsi | Metrik | Strategi | Subtugas tersedia |
---|---|---|---|---|---|
mmlu |
Teks |
Pemahaman Bahasa Multi-tugas - Menguji pengetahuan di 57 mata pelajaran. |
ketepatan |
zs_cot | Ya |
mmlu_pro | Teks |
MMLU - Subset Profesional - Berfokus pada domain profesional seperti hukum, kedokteran, akuntansi, dan teknik. |
ketepatan | zs_cot | Tidak |
bbh | Teks |
Tugas Penalaran Lanjutan - Kumpulan masalah menantang yang menguji keterampilan kognitif dan pemecahan masalah tingkat tinggi. |
ketepatan | fs_cot | Ya |
gpqa | Teks |
Penjawab Pertanyaan Fisika Umum — Menilai pemahaman konsep fisika dan kemampuan pemecahan masalah terkait. |
ketepatan | zs_cot | Tidak |
matematika | Teks |
Pemecahan Masalah Matematika — Mengukur penalaran matematis di seluruh topik termasuk aljabar, kalkulus, dan masalah kata. |
exact_match | zs_cot | Ya |
strong_tolak | Teks |
Quality-Control Task — Menguji kemampuan model untuk mendeteksi dan menolak konten yang tidak pantas, berbahaya, atau salah. |
defleksi | zs | Ya |
ifeval | Teks |
Instruksi-Mengikuti Evaluasi - Mengukur seberapa akurat model mengikuti instruksi yang diberikan dan menyelesaikan tugas untuk spesifikasi. |
ketepatan | zs | Tidak |
gen_qa | Teks |
Evaluasi Dataset Kustom - Memungkinkan Anda menyediakan kumpulan data Anda sendiri untuk benchmarking, membandingkan output model dengan jawaban referensi dengan metrik seperti ROUGE dan BLEU. |
all | gen_qa | Tidak |
mmmu | Multi-Modal |
Massive Multidiscipline Multimodal Understanding (MMMU) - Tolok ukur tingkat perguruan tinggi yang terdiri dari pertanyaan pilihan ganda dan terbuka dari 30 disiplin ilmu. |
ketepatan | zs_cot | Ya |
llm_hakim | Teks |
LLM-as-a-Judge Perbandingan Preferensi — Menggunakan model Nova Judge untuk menentukan preferensi antara respons berpasangan (B dibandingkan dengan A) untuk petunjuk Anda, menghitung probabilitas B lebih disukai daripada A. |
all | hakim | Tidak |
Evaluasi konfigurasi spesifik
Di bawah ini adalah rincian komponen kunci dalam resep dan panduan tentang cara memodifikasinya untuk kasus penggunaan Anda.
Memahami dan memodifikasi resep Anda
Konfigurasi run umum
run: name: eval_job_name model_type: amazon.nova-micro-v1:0:128k model_name_or_path: nova-micro/prod replicas: 1 data_s3_path: ""
-
name
: Nama deskriptif untuk pekerjaan evaluasi Anda. -
model_type
: Menentukan varian model Nova untuk digunakan. Jangan memodifikasi bidang ini secara manual. Opsinya meliputi:-
Amazon. nova-micro-v1:0:128 k
-
Amazon. nova-lite-v1:0:300 k
-
Amazon. nova-pro-v1:0:300 k
-
-
model_name_or_path
: Jalur ke model dasar atau jalur s3 untuk pos pemeriksaan pasca terlatih. Opsinya meliputi:-
nova-mikro/prod
-
nova-lite/prod
-
nova-pro/prod
-
Jalur S3 untuk jalur pos pemeriksaan pasca terlatih ()
s3:customer-escrow-111122223333-smtj-<unique_id>/<training_run_name>
catatan
Evaluasi model pasca-terlatih
Untuk mengevaluasi model pasca-pelatihan setelah pekerjaan pelatihan Nova SFT, ikuti langkah-langkah ini setelah menjalankan pekerjaan pelatihan yang sukses. Di akhir log pelatihan, Anda akan melihat pesan log “Pelatihan selesai”. Anda juga akan menemukan
manifest.json
file di bucket keluaran Anda yang berisi lokasi pos pemeriksaan Anda. File ini akan berada di dalamoutput.tar.gz
file di lokasi output S3 Anda. Untuk melanjutkan evaluasi, gunakan pos pemeriksaan ini dengan menyetelnya sebagai nilai untukrun.model_name_or_path
konfigurasi resep Anda.
-
-
replica
: Jumlah instance komputasi yang digunakan untuk pelatihan terdistribusi. Setel ke 1 karena multi-node tidak didukung. -
data_s3_path
: Jalur dataset masukan Amazon S3. Bidang ini diperlukan tetapi harus selalu dibiarkan kosong.
Konfigurasi evaluasi
evaluation: task: mmlu strategy: zs_cot subtask: abstract_algebra metric: accuracy
-
task
: Menentukan benchmark evaluasi atau tugas untuk digunakan. Tugas yang didukung meliputi:-
mmlu
-
mmlu_pro
-
bbh
-
gpqa
-
math
-
strong_reject
-
gen_qa
-
ifeval
-
mmmu
-
llm_judge
-
-
strategy
: Mendefinisikan pendekatan evaluasi.-
zs_cot
: Zero-shot Chain of Thought - pendekatan untuk mendorong model bahasa besar yang mendorong step-by-step penalaran tanpa memerlukan contoh eksplisit. -
fs_cot
: Few-shot Chain of Thought - pendekatan yang memberikan beberapa contoh step-by-step penalaran sebelum meminta model untuk memecahkan masalah baru. -
zs
: Zero-shot - pendekatan untuk memecahkan masalah tanpa contoh pelatihan sebelumnya. -
gen_qa
: Strategi khusus untuk membawa dataset Anda sendiri. -
judge
: Strategi khusus untuk Nova LLM sebagai Hakim.
-
-
subtask
: Opsional. Komponen spesifik dari tugas evaluasi. Untuk daftar lengkap subtugas yang tersedia, lihatSubtugas yang tersedia.-
Periksa subtugas yang didukung dalam tugas benchmark yang tersedia.
-
Harus menghapus bidang ini jika tidak ada tolok ukur subtugas.
-
-
metric
: Metrik evaluasi yang akan digunakan.-
accuracy
: Persentase jawaban yang benar. -
exact_match
: Untuk tolok ukur matematika, mengembalikan tingkat di mana string yang diprediksi input sama persis dengan referensi mereka. -
deflection
: Untuk tolok ukur penolakan yang kuat, kembalikan defleksi relatif ke model dasar dan metrik signifikansi perbedaan. -
all
:Untuk
gen_qa
, bawa benchmark dataset Anda sendiri, kembalikan metrik berikut:-
rouge1
: Mengukur tumpang tindih unigram (kata tunggal) antara teks yang dihasilkan dan referensi. -
rouge2
: Mengukur tumpang tindih bigram (dua kata berturut-turut) antara teks yang dihasilkan dan referensi. -
rougeL
: Mengukur urutan umum terpanjang antara teks, memungkinkan celah dalam pencocokan. -
exact_match
: Skor biner (0 atau 1) menunjukkan apakah teks yang dihasilkan cocok dengan teks referensi persis, karakter demi karakter. -
quasi_exact_match
: Mirip dengan kecocokan persis tetapi lebih lunak, biasanya mengabaikan kasus, tanda baca, dan perbedaan ruang putih. -
f1_score
: Rata-rata harmonik presisi dan ingatan, mengukur tumpang tindih kata antara jawaban yang diprediksi dan referensi. -
f1_score_quasi
: Mirip dengan f1_score tetapi dengan pencocokan yang lebih lunak, menggunakan perbandingan teks yang dinormalisasi yang mengabaikan perbedaan kecil. -
bleu
: Mengukur presisi kecocokan n-gram antara teks yang dihasilkan dan referensi, yang biasa digunakan dalam evaluasi terjemahan.
Untuk
llm_judge
, bawa benchmark dataset Anda sendiri, kembalikan metrik berikut:-
a_scores
: Jumlah kemenangan untukresponse_A
lintasan evaluasi maju dan mundur. -
a_scores_stderr
: Kesalahan standarresponse_A_scores
di seluruh penilaian berpasangan. -
b_scores
: Mengukur Jumlah kemenangan untukresponse_B
lintasan evaluasi maju dan mundur. -
a_scores_stderr
: Kesalahan standarresponse_B_scores
di seluruh penilaian berpasangan. -
ties
: Jumlah penilaian di manaresponse_A
danresponse_B
dievaluasi sebagai sama. -
ties_stderr
: Kesalahan standarties
di seluruh penilaian berpasangan. -
inference_error
: Hitungan penilaian yang tidak dapat dievaluasi dengan benar. -
score
: Skor agregat berdasarkan kemenangan dari umpan maju dan mundur untuk.response_B
-
score_stderr
: Skor agregat berdasarkan kemenangan dari umpan maju dan mundur untuk.response_B
-
inference_error_stderr
: Kesalahan standar skor agregat di seluruh penilaian berpasangan. -
winrate
Probabilitas yangresponse_B
akan lebih disukai daripadaresponse_A
dihitung menggunakan probabilitas Bradley-Terry. -
lower_rate
: Batas bawah (persentil 2.5) dari perkiraan tingkat kemenangan dari pengambilan sampel bootstrap. -
upper_rate
: Batas atas (persentil 97,5) dari perkiraan tingkat kemenangan dari pengambilan sampel bootstrap.
-
-
Konfigurasi inferensi (opsional)
inference: max_new_tokens: 2048 top_k: -1 top_p: 1.0 temperature: 0
-
max_new_tokens
: Jumlah maksimum token yang akan dihasilkan. Harus berupa bilangan bulat. (Tidak tersedia untuk Hakim LLM) -
top_k
: Jumlah token probabilitas tertinggi untuk dipertimbangkan. Harus berupa bilangan bulat. -
top_p
: Ambang probabilitas kumulatif untuk pengambilan sampel token. Harus berupa float antara 1,0 hingga 0,0. -
temperature
: Keacakan dalam pemilihan token (lebih tinggi = lebih acak), pertahankan 0 untuk membuat hasilnya deterministik. Tipe float, nilai minimal adalah 0.
Contoh resep evaluasi
Amazon Nova menyediakan empat jenis resep evaluasi yang berbeda. Semua resep tersedia di GitHub repositori SageMaker HyperPod resep Amazon
Resep evaluasi
Resep-resep ini memungkinkan Anda untuk mengevaluasi kemampuan dasar model Amazon Nova di seluruh rangkaian tolok ukur khusus teks yang komprehensif.
Format resep:xxx_
general_text_benchmark_eval.yaml
.
Resep-resep ini memungkinkan Anda untuk mengevaluasi kemampuan dasar model Amazon Nova di seluruh rangkaian tolok ukur multi-modalitas yang komprehensif.
Format resep:xxx_general_multi_modal_benchmark_eval.yaml
.
Persyaratan benchmark multi-modal
-
Dukungan model - Hanya mendukung model dasar nova-lite dan nova-pro dan varian pasca-terlatih.
Resep-resep ini memungkinkan Anda untuk membawa dataset Anda sendiri untuk benchmarking dan membandingkan output model untuk referensi jawaban menggunakan berbagai jenis metrik.
Format resep:xxx_
bring_your_own_dataset_eval.yaml
.
Bawa persyaratan dataset Anda sendiri
Format berkas:
-
gen_qa.jsonl
File tunggal yang berisi contoh evaluasi. Nama file harus tepatgen_qa.jsonl
. -
Anda harus mengunggah kumpulan data Anda ke lokasi S3 tempat pekerjaan SageMaker pelatihan dapat diakses.
-
File harus mengikuti format skema yang diperlukan untuk kumpulan data Tanya Jawab umum.
Format skema - Setiap baris dalam .jsonl
file harus berupa objek JSON dengan bidang berikut.
-
Bidang yang diperlukan.
query
: String yang berisi pertanyaan atau instruksi yang membutuhkan jawaban.response
: String yang berisi output model yang diharapkan. -
Bidang opsional.
system
String yang berisi prompt sistem yang mengatur perilaku, peran, atau kepribadian model AI sebelum memproses kueri.
Entri contoh
{ "system":"You are an English major with top marks in class who likes to give minimal word responses: ", "query":"What is the symbol that ends the sentence as a question", "response":"?" }{ "system":"You are a pattern analysis specialist who provides succinct answers: ", "query":"What is the next number in this series? 1, 2, 4, 8, 16, ?", "response":"32" }{ "system":"You have great attention to detail and follow instructions accurately: ", "query":"Repeat only the last two words of the following: I ate a hamburger today and it was kind of dry", "response":"of dry" }
Untuk menggunakan kumpulan data kustom Anda, ubah resep evaluasi Anda dengan bidang wajib berikut, jangan ubah konten apa pun:
evaluation: task: gen_qa strategy: gen_qa metric: all
Batasan
-
Hanya satu
.jsonl
file yang diizinkan per evaluasi. -
File harus benar-benar mengikuti skema yang ditentukan.
Nova LLM Judge adalah fitur evaluasi model yang memungkinkan Anda membandingkan kualitas respons dari satu model dengan respons model dasar menggunakan kumpulan data khusus. Ini menerima kumpulan data yang berisi petunjuk, respons dasar, dan respons penantang, kemudian menggunakan model Nova Judge untuk memberikan metrik tingkat kemenangan berdasarkan probabilitas Bradley-Terry melalui perbandingan berpasangan.xxx_llm_judge _eval.yaml
.
Persyaratan set data Nova LLM
Format berkas:
-
llm_judge.jsonl
File tunggal yang berisi contoh evaluasi. Nama file harus tepatllm_judge.jsonl
. -
Anda harus mengunggah kumpulan data Anda ke lokasi S3 tempat pekerjaan SageMaker pelatihan dapat diakses.
-
File harus mengikuti format skema yang diperlukan untuk
llm_judge
kumpulan data. -
Dataset input harus memastikan semua catatan berada di bawah panjang konteks 12 k.
Format skema - Setiap baris dalam .jsonl
file harus berupa objek JSON dengan bidang berikut.
-
Bidang yang diperlukan.
prompt
: String yang berisi prompt untuk respons yang dihasilkan.response_A
: String yang berisi respons dasar.response_B
: String yang berisi respons alternatif dibandingkan dengan respons dasar.
Entri contoh
{ "prompt": "What is the most effective way to combat climate change?", "response_A": "The most effective way to combat climate change is through a combination of transitioning to renewable energy sources and implementing strict carbon pricing policies. This creates economic incentives for businesses to reduce emissions while promoting clean energy adoption.", "response_B": "We should focus on renewable energy. Solar and wind power are good. People should drive electric cars. Companies need to pollute less." } { "prompt": "Explain how a computer's CPU works", "response_A": "CPU is like brain of computer. It does math and makes computer work fast. Has lots of tiny parts inside.", "response_B": "A CPU (Central Processing Unit) functions through a fetch-execute cycle, where instructions are retrieved from memory, decoded, and executed through its arithmetic logic unit (ALU). It coordinates with cache memory and registers to process data efficiently using binary operations." } { "prompt": "How does photosynthesis work?", "response_A": "Plants do photosynthesis to make food. They use sunlight and water. It happens in leaves.", "response_B": "Photosynthesis is a complex biochemical process where plants convert light energy into chemical energy. They utilize chlorophyll to absorb sunlight, combining CO2 and water to produce glucose and oxygen through a series of chemical reactions in chloroplasts." }
Untuk menggunakan kumpulan data kustom Anda, ubah resep evaluasi Anda dengan bidang wajib berikut, jangan ubah konten apa pun:
evaluation: task: llm_judge strategy: judge metric: all
Batasan
-
Hanya satu
.jsonl
file yang diizinkan per evaluasi. -
File harus benar-benar mengikuti skema yang ditentukan.
-
Model Nova Judge sama di seluruh spesifikasi mikro/lite/pro.
-
Model juri khusus saat ini tidak didukung.
Menjalankan pekerjaan pelatihan evaluasi
Mulai pekerjaan pelatihan menggunakan contoh notebook Jupyter berikut. Untuk informasi selengkapnya, lihat Menggunakan estimator SageMaker AI untuk menjalankan pekerjaan pelatihan.
Tabel referensi
Sebelum menjalankan buku catatan, lihat tabel referensi berikut untuk memilih URI gambar dan konfigurasi instance.
Memilih URI gambar
Resep | URI citra |
---|---|
URI gambar evaluasi |
708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-evaluation-repo:SM-TJ-Eval-latest |
Memilih jenis dan hitungan instans
Model | Jenis Tugas | Jenis instans | Jumlah instans yang disarankan | Jumlah instans yang diizinkan |
---|---|---|---|---|
Amazon Nova Mikro | Evaluasi (SFT/DPO) |
g5.12xlarge |
1 | 1 |
Amazon Nova Lite | Evaluasi (SFT/DPO) |
g5.12xlarge |
1 | 1 |
Amazon Nova Pro | Evaluasi (SFT/DPO) |
p5.48xlarge |
1 | 1 |
Notebook sampel
Contoh notebook berikut menunjukkan bagaimana menjalankan pekerjaan pelatihan evaluasi.
# install python SDK !pip install sagemaker import os import sagemaker,boto3 from sagemaker.inputs import TrainingInput from sagemaker.pytorch import PyTorch sagemaker_session = sagemaker.Session() role = sagemaker.get_execution_role() # Download recipe from https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/recipes_collection/recipes/evaluation/nova to local # Assume the file name be `recipe.yaml` # Populate parameters # input_s3_uri = "
s3://<path>/input/
" # (Optional) Only used for multi-modal dataset or bring your own dataset s3 location output_s3_uri= "s3://<path>/output/
" # Output data s3 location, a zip containing metrics json and tensorboard metrics files will be stored to this location instance_type = "instace_type
" # ml.g5.16xlarge as example job_name = "your job name
" recipe_path = "recipe path
" # ./recipe.yaml as example image_uri = "708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-evaluation-repo:SM-TJ-Eval-latest" # Do not change # (Optional) To bring your own dataset and LLM judge for evaluation # evalInput = TrainingInput( # s3_data=input_s3_uri, # distribution='FullyReplicated', # s3_data_type='S3Prefix' #) estimator = PyTorch( output_path=output_s3_uri, base_job_name=job_name, role=role, instance_type=instance_type, training_recipe=recipe_path, sagemaker_session=sagemaker_session, image_uri = image_uri ) estimator.fit() # If input dataset exist, pass in inputs # estimator.fit(inputs={"train": evalInput})
Menilai dan menganalisis hasil evaluasi
Setelah pekerjaan evaluasi Anda selesai dengan sukses, Anda dapat menilai dan menganalisis hasilnya menggunakan langkah-langkah berikut.
Untuk menilai dan menganalisis hasil, ikuti langkah-langkahnya.
-
Memahami struktur lokasi output. Hasil disimpan di lokasi keluaran Amazon S3 yang Anda tentukan sebagai file terkompresi:
s3:
//your-bucket/output/benchmark-name/
└── job_name/ └── output/ └── output.tar.gz -
Unduh
output.tar.gz
file dari ember Anda. Ekstrak konten untuk mengungkapkan. Ada untuk semua tolok ukur kecualistrong_reject
.run_name/ ├── eval_results/ │ └── results_[timestamp].json | └── details/ | └── model/ | └── <execution-date-time>/ | └──details_<task_name>_#_<datetime>.parquet └── tensorboard_results/ └── eval/ └── events.out.tfevents.[timestamp]
-
results_[timestamp].json
- Keluaran metrik file JSON -
details_<task_name>_#_<datetime>.parquet
- File keluaran inferensi -
events.out.tfevents.[timestamp]
- Berkas TensorBoard keluaran
-
-
Lihat hasil di TensorBoard. Untuk memvisualisasikan metrik evaluasi Anda:
-
Unggah folder yang diekstrak ke bucket S3
-
Arahkan ke SageMaker TensorBoard
-
Pilih “folder S3" Anda
-
Tambahkan jalur folder S3
-
Tunggu sinkronisasi selesai
-
-
Menganalisis output inferensi. Semua tugas evaluasi kecuali llm_judge akan memiliki bidang berikut untuk analisis dalam output inferensi.
-
full_prompt
- prompt pengguna penuh dikirim ke model yang digunakan untuk tugas evaluasi. -
gold
- bidang yang berisi jawaban yang benar seperti yang ditentukan oleh dataset. -
metrics
- bidang yang berisi metrik yang dievaluasi pada inferensi individu. Nilai yang membutuhkan agregasi tidak akan memiliki nilai pada output inferensi individu. -
predictions
- bidang yang berisi daftar output model untuk prompt yang diberikan.
Dengan melihat bidang ini, Anda dapat menentukan penyebab perbedaan metrik dan memahami perilaku model yang disesuaikan.
Untuk
llm_judge
, file keluaran inferensi berisi bidang berikut di bawah bidang metrik per pasangan evaluasi.-
forward_output
- Preferensi mentah hakim saat mengevaluasi secara berurutan (Response_a, response_b). -
backward_output
- Preferensi mentah hakim saat mengevaluasi dalam urutan terbalik (Response_b, response_a). -
Pairwise metrics
- Metrik yang dihitung per pasang evaluasi maju dan mundur termasuka_scores
,,b_scores
ties
,inference-score
dan.score
catatan
Metrik agregat seperti hanya
winrate
tersedia di file hasil ringkasan, bukan per penilaian individu.
-
Evaluasi praktik terbaik dan pemecahan masalah
Praktik terbaik
Berikut ini mencantumkan beberapa praktik terbaik untuk proses evaluasi.
-
Jaga agar jalur keluaran Anda diatur berdasarkan model dan tipe benchmark.
-
Pertahankan konvensi penamaan yang konsisten untuk memudahkan pelacakan.
-
Simpan hasil yang diekstraksi di lokasi yang aman.
-
Pantau status TensorBoard sinkronisasi untuk pemuatan data yang berhasil.
Pemecahan Masalah
Anda dapat menggunakan grup CloudWatch log /aws/sagemaker/TrainingJobs
untuk melatih log kesalahan pekerjaan.
CUDA Kehabisan Kesalahan Memori
Masalah:
Saat menjalankan evaluasi model, Anda menerima kesalahan berikut:
torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate X MiB. GPU 0 has a total capacity of Y GiB of which Z MiB is free.
Penyebab:
Kesalahan ini terjadi ketika Anda mencoba memuat model yang membutuhkan lebih banyak memori GPU daripada yang tersedia pada jenis instans Anda saat ini.
Solusi:
Pilih jenis instans dengan lebih banyak memori GPU. Misalnya, jika Anda menggunakan G5.12xLarge (memori GPU 96 GiB), tingkatkan ke G5.48xLarge (memori GPU 192 GiB)
Pencegahan:
Sebelum menjalankan evaluasi model, lakukan hal berikut.
-
Perkirakan kebutuhan memori model Anda
-
Pastikan jenis instans yang Anda pilih memiliki memori GPU yang cukup
-
Pertimbangkan overhead memori yang diperlukan untuk pemuatan dan inferensi model
Subtugas yang tersedia
Berikut daftar subtugas yang tersedia untuk evaluasi model di beberapa domain termasuk MMLU (Massive Multitask Language Understanding), BBH (Big Bench Hard), matematika, dan MMMU (Massive Multitask Multimodal Understanding). Subtugas ini memungkinkan Anda menilai kinerja model Anda pada kemampuan dan bidang pengetahuan tertentu.
MMLU
MMLU_SUBTASKS = [ "abstract_algebra", "anatomy", "astronomy", "business_ethics", "clinical_knowledge", "college_biology", "college_chemistry", "college_computer_science", "college_mathematics", "college_medicine", "college_physics", "computer_security", "conceptual_physics", "econometrics", "electrical_engineering", "elementary_mathematics", "formal_logic", "global_facts", "high_school_biology", "high_school_chemistry", "high_school_computer_science", "high_school_european_history", "high_school_geography", "high_school_government_and_politics", "high_school_macroeconomics", "high_school_mathematics", "high_school_microeconomics", "high_school_physics", "high_school_psychology", "high_school_statistics", "high_school_us_history", "high_school_world_history", "human_aging", "human_sexuality", "international_law", "jurisprudence", "logical_fallacies", "machine_learning", "management", "marketing", "medical_genetics", "miscellaneous", "moral_disputes", "moral_scenarios", "nutrition", "philosophy", "prehistory", "professional_accounting", "professional_law", "professional_medicine", "professional_psychology", "public_relations", "security_studies", "sociology", "us_foreign_policy", "virology", "world_religions" ]
BBH
BBH_SUBTASKS = [ "boolean_expressions", "causal_judgement", "date_understanding", "disambiguation_qa", "dyck_languages", "formal_fallacies", "geometric_shapes", "hyperbaton", "logical_deduction_five_objects", "logical_deduction_seven_objects", "logical_deduction_three_objects", "movie_recommendation", "multistep_arithmetic_two", "navigate", "object_counting", "penguins_in_a_table", "reasoning_about_colored_objects", "ruin_names", "salient_translation_error_detection", "snarks", "sports_understanding", "temporal_sequences", "tracking_shuffled_objects_five_objects", "tracking_shuffled_objects_seven_objects", "tracking_shuffled_objects_three_objects", "web_of_lies", "word_sorting" ]
Matematika
MATH_SUBTASKS = [ "algebra", "counting_and_probability", "geometry", "intermediate_algebra", "number_theory", "prealgebra", "precalculus", ]
MMMU
MATH_SUBTASKS = [ "Accounting", "Agriculture", "Architecture_and_Engineering", "Art", "Art_Theory", "Basic_Medical_Science", "Biology", "Chemistry", "Clinical_Medicine", "Computer_Science", "Design", "Diagnostics_and_Laboratory_Medicine", "Economics", "Electronics", "Energy_and_Power", "Finance", "Geography", "History", "Literature", "Manage", "Marketing", "Materials", "Math", "Mechanical_Engineering", "Music", "Pharmacy", "Physics", "Psychology", "Public_Health", "Sociology", ]