Mengevaluasi model terlatih SageMaker AI Anda - Amazon SageMaker AI

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengevaluasi model terlatih SageMaker AI Anda

Tujuan dari proses evaluasi adalah untuk menilai kinerja model terlatih terhadap tolok ukur atau kumpulan data khusus. Proses evaluasi biasanya melibatkan langkah-langkah untuk membuat resep evaluasi yang menunjuk ke model terlatih, menentukan kumpulan data dan metrik evaluasi, menyerahkan pekerjaan terpisah untuk evaluasi, dan mengevaluasi terhadap tolok ukur standar atau data khusus. Proses evaluasi akan menampilkan metrik kinerja yang disimpan di bucket Amazon S3 Anda.

catatan

Proses evaluasi yang dijelaskan dalam topik ini adalah proses offline. Model ini diuji terhadap tolok ukur tetap dengan jawaban yang telah ditentukan, daripada dinilai secara real-time atau melalui interaksi pengguna langsung. Untuk evaluasi waktu nyata, Anda dapat menguji model setelah diterapkan ke Amazon Bedrock dengan memanggil Amazon Bedrock Runtime. APIs

Prasyarat

Sebelum Anda memulai pekerjaan pelatihan evaluasi, perhatikan hal berikut.

  • Model Amazon Nova SageMaker terlatih AI yang ingin Anda evaluasi kinerjanya.

  • Resep dasar Amazon Nova untuk evaluasi. Untuk informasi selengkapnya, lihat Mendapatkan resep Amazon Nova.

Tugas benchmark yang tersedia

Paket kode sampel tersedia yang menunjukkan cara menghitung metrik tolok ukur menggunakan fitur evaluasi SageMaker model untuk Amazon Nova. Untuk mengakses paket kode, lihat Sampel-N ova-lighteval-custom-task.

Berikut adalah daftar tolok ukur standar industri yang tersedia yang didukung. Anda dapat menentukan tolok ukur berikut dalam eval_task parameter.

Tolok ukur yang tersedia untuk evaluasi model

Tolok Ukur Modalitas Deskripsi Metrik Strategi Subtugas tersedia
mmlu

Teks

Pemahaman Bahasa Multi-tugas - Menguji pengetahuan di 57 mata pelajaran.

ketepatan

zs_cot Ya
mmlu_pro Teks

MMLU - Subset Profesional - Berfokus pada domain profesional seperti hukum, kedokteran, akuntansi, dan teknik.

ketepatan zs_cot Tidak
bbh Teks

Tugas Penalaran Lanjutan - Kumpulan masalah menantang yang menguji keterampilan kognitif dan pemecahan masalah tingkat tinggi.

ketepatan fs_cot Ya
gpqa Teks

Penjawab Pertanyaan Fisika Umum — Menilai pemahaman konsep fisika dan kemampuan pemecahan masalah terkait.

ketepatan zs_cot Tidak
matematika Teks

Pemecahan Masalah Matematika — Mengukur penalaran matematis di seluruh topik termasuk aljabar, kalkulus, dan masalah kata.

exact_match zs_cot Ya
strong_tolak Teks

Quality-Control Task — Menguji kemampuan model untuk mendeteksi dan menolak konten yang tidak pantas, berbahaya, atau salah.

defleksi zs Ya
ifeval Teks

Instruksi-Mengikuti Evaluasi - Mengukur seberapa akurat model mengikuti instruksi yang diberikan dan menyelesaikan tugas untuk spesifikasi.

ketepatan zs Tidak
gen_qa Teks

Evaluasi Dataset Kustom - Memungkinkan Anda menyediakan kumpulan data Anda sendiri untuk benchmarking, membandingkan output model dengan jawaban referensi dengan metrik seperti ROUGE dan BLEU.

all gen_qa Tidak
mmmu Multi-Modal

Massive Multidiscipline Multimodal Understanding (MMMU) - Tolok ukur tingkat perguruan tinggi yang terdiri dari pertanyaan pilihan ganda dan terbuka dari 30 disiplin ilmu.

ketepatan zs_cot Ya
llm_hakim Teks

LLM-as-a-Judge Perbandingan Preferensi — Menggunakan model Nova Judge untuk menentukan preferensi antara respons berpasangan (B dibandingkan dengan A) untuk petunjuk Anda, menghitung probabilitas B lebih disukai daripada A.

all hakim Tidak

Evaluasi konfigurasi spesifik

Di bawah ini adalah rincian komponen kunci dalam resep dan panduan tentang cara memodifikasinya untuk kasus penggunaan Anda.

Memahami dan memodifikasi resep Anda

Konfigurasi run umum

run: name: eval_job_name model_type: amazon.nova-micro-v1:0:128k model_name_or_path: nova-micro/prod replicas: 1 data_s3_path: ""
  • name: Nama deskriptif untuk pekerjaan evaluasi Anda.

  • model_type: Menentukan varian model Nova untuk digunakan. Jangan memodifikasi bidang ini secara manual. Opsinya meliputi:

    • Amazon. nova-micro-v1:0:128 k

    • Amazon. nova-lite-v1:0:300 k

    • Amazon. nova-pro-v1:0:300 k

  • model_name_or_path: Jalur ke model dasar atau jalur s3 untuk pos pemeriksaan pasca terlatih. Opsinya meliputi:

    • nova-mikro/prod

    • nova-lite/prod

    • nova-pro/prod

    • Jalur S3 untuk jalur pos pemeriksaan pasca terlatih () s3:customer-escrow-111122223333-smtj-<unique_id>/<training_run_name>

      catatan

      Evaluasi model pasca-terlatih

      Untuk mengevaluasi model pasca-pelatihan setelah pekerjaan pelatihan Nova SFT, ikuti langkah-langkah ini setelah menjalankan pekerjaan pelatihan yang sukses. Di akhir log pelatihan, Anda akan melihat pesan log “Pelatihan selesai”. Anda juga akan menemukan manifest.json file di bucket keluaran Anda yang berisi lokasi pos pemeriksaan Anda. File ini akan berada di dalam output.tar.gz file di lokasi output S3 Anda. Untuk melanjutkan evaluasi, gunakan pos pemeriksaan ini dengan menyetelnya sebagai nilai untuk run.model_name_or_path konfigurasi resep Anda.

  • replica: Jumlah instance komputasi yang digunakan untuk pelatihan terdistribusi. Setel ke 1 karena multi-node tidak didukung.

  • data_s3_path: Jalur dataset masukan Amazon S3. Bidang ini diperlukan tetapi harus selalu dibiarkan kosong.

Konfigurasi evaluasi

evaluation: task: mmlu strategy: zs_cot subtask: abstract_algebra metric: accuracy
  • task: Menentukan benchmark evaluasi atau tugas untuk digunakan. Tugas yang didukung meliputi:

    • mmlu

    • mmlu_pro

    • bbh

    • gpqa

    • math

    • strong_reject

    • gen_qa

    • ifeval

    • mmmu

    • llm_judge

  • strategy: Mendefinisikan pendekatan evaluasi.

    • zs_cot: Zero-shot Chain of Thought - pendekatan untuk mendorong model bahasa besar yang mendorong step-by-step penalaran tanpa memerlukan contoh eksplisit.

    • fs_cot: Few-shot Chain of Thought - pendekatan yang memberikan beberapa contoh step-by-step penalaran sebelum meminta model untuk memecahkan masalah baru.

    • zs: Zero-shot - pendekatan untuk memecahkan masalah tanpa contoh pelatihan sebelumnya.

    • gen_qa: Strategi khusus untuk membawa dataset Anda sendiri.

    • judge: Strategi khusus untuk Nova LLM sebagai Hakim.

  • subtask: Opsional. Komponen spesifik dari tugas evaluasi. Untuk daftar lengkap subtugas yang tersedia, lihatSubtugas yang tersedia.

    • Periksa subtugas yang didukung dalam tugas benchmark yang tersedia.

    • Harus menghapus bidang ini jika tidak ada tolok ukur subtugas.

  • metric: Metrik evaluasi yang akan digunakan.

    • accuracy: Persentase jawaban yang benar.

    • exact_match: Untuk tolok ukur matematika, mengembalikan tingkat di mana string yang diprediksi input sama persis dengan referensi mereka.

    • deflection: Untuk tolok ukur penolakan yang kuat, kembalikan defleksi relatif ke model dasar dan metrik signifikansi perbedaan.

    • all:

      Untukgen_qa, bawa benchmark dataset Anda sendiri, kembalikan metrik berikut:

      • rouge1: Mengukur tumpang tindih unigram (kata tunggal) antara teks yang dihasilkan dan referensi.

      • rouge2: Mengukur tumpang tindih bigram (dua kata berturut-turut) antara teks yang dihasilkan dan referensi.

      • rougeL: Mengukur urutan umum terpanjang antara teks, memungkinkan celah dalam pencocokan.

      • exact_match: Skor biner (0 atau 1) menunjukkan apakah teks yang dihasilkan cocok dengan teks referensi persis, karakter demi karakter.

      • quasi_exact_match: Mirip dengan kecocokan persis tetapi lebih lunak, biasanya mengabaikan kasus, tanda baca, dan perbedaan ruang putih.

      • f1_score: Rata-rata harmonik presisi dan ingatan, mengukur tumpang tindih kata antara jawaban yang diprediksi dan referensi.

      • f1_score_quasi: Mirip dengan f1_score tetapi dengan pencocokan yang lebih lunak, menggunakan perbandingan teks yang dinormalisasi yang mengabaikan perbedaan kecil.

      • bleu: Mengukur presisi kecocokan n-gram antara teks yang dihasilkan dan referensi, yang biasa digunakan dalam evaluasi terjemahan.

      Untukllm_judge, bawa benchmark dataset Anda sendiri, kembalikan metrik berikut:

      • a_scores: Jumlah kemenangan untuk response_A lintasan evaluasi maju dan mundur.

      • a_scores_stderr: Kesalahan standar response_A_scores di seluruh penilaian berpasangan.

      • b_scores: Mengukur Jumlah kemenangan untuk response_B lintasan evaluasi maju dan mundur.

      • a_scores_stderr: Kesalahan standar response_B_scores di seluruh penilaian berpasangan.

      • ties: Jumlah penilaian di mana response_A dan response_B dievaluasi sebagai sama.

      • ties_stderr: Kesalahan standar ties di seluruh penilaian berpasangan.

      • inference_error: Hitungan penilaian yang tidak dapat dievaluasi dengan benar.

      • score: Skor agregat berdasarkan kemenangan dari umpan maju dan mundur untuk. response_B

      • score_stderr: Skor agregat berdasarkan kemenangan dari umpan maju dan mundur untuk. response_B

      • inference_error_stderr: Kesalahan standar skor agregat di seluruh penilaian berpasangan.

      • winrateProbabilitas yang response_B akan lebih disukai daripada response_A dihitung menggunakan probabilitas Bradley-Terry.

      • lower_rate: Batas bawah (persentil 2.5) dari perkiraan tingkat kemenangan dari pengambilan sampel bootstrap.

      • upper_rate: Batas atas (persentil 97,5) dari perkiraan tingkat kemenangan dari pengambilan sampel bootstrap.

Konfigurasi inferensi (opsional)

inference: max_new_tokens: 2048 top_k: -1 top_p: 1.0 temperature: 0
  • max_new_tokens: Jumlah maksimum token yang akan dihasilkan. Harus berupa bilangan bulat. (Tidak tersedia untuk Hakim LLM)

  • top_k: Jumlah token probabilitas tertinggi untuk dipertimbangkan. Harus berupa bilangan bulat.

  • top_p: Ambang probabilitas kumulatif untuk pengambilan sampel token. Harus berupa float antara 1,0 hingga 0,0.

  • temperature: Keacakan dalam pemilihan token (lebih tinggi = lebih acak), pertahankan 0 untuk membuat hasilnya deterministik. Tipe float, nilai minimal adalah 0.

Contoh resep evaluasi

Amazon Nova menyediakan empat jenis resep evaluasi yang berbeda. Semua resep tersedia di GitHub repositori SageMaker HyperPod resep Amazon.

Resep evaluasi

    Resep-resep ini memungkinkan Anda untuk mengevaluasi kemampuan dasar model Amazon Nova di seluruh rangkaian tolok ukur khusus teks yang komprehensif.

    Format resep:xxx_ general_text_benchmark_eval.yaml.

    Resep-resep ini memungkinkan Anda untuk mengevaluasi kemampuan dasar model Amazon Nova di seluruh rangkaian tolok ukur multi-modalitas yang komprehensif.

    Format resep:xxx_general_multi_modal_benchmark_eval.yaml.

    Persyaratan benchmark multi-modal

    • Dukungan model - Hanya mendukung model dasar nova-lite dan nova-pro dan varian pasca-terlatih.

    Resep-resep ini memungkinkan Anda untuk membawa dataset Anda sendiri untuk benchmarking dan membandingkan output model untuk referensi jawaban menggunakan berbagai jenis metrik.

    Format resep:xxx_ bring_your_own_dataset_eval.yaml.

    Bawa persyaratan dataset Anda sendiri

    Format berkas:

    • gen_qa.jsonlFile tunggal yang berisi contoh evaluasi. Nama file harus tepatgen_qa.jsonl.

    • Anda harus mengunggah kumpulan data Anda ke lokasi S3 tempat pekerjaan SageMaker pelatihan dapat diakses.

    • File harus mengikuti format skema yang diperlukan untuk kumpulan data Tanya Jawab umum.

    Format skema - Setiap baris dalam .jsonl file harus berupa objek JSON dengan bidang berikut.

    • Bidang yang diperlukan.

      query: String yang berisi pertanyaan atau instruksi yang membutuhkan jawaban.

      response: String yang berisi output model yang diharapkan.

    • Bidang opsional.

      systemString yang berisi prompt sistem yang mengatur perilaku, peran, atau kepribadian model AI sebelum memproses kueri.

    Entri contoh

    { "system":"You are an English major with top marks in class who likes to give minimal word responses: ", "query":"What is the symbol that ends the sentence as a question", "response":"?" }{ "system":"You are a pattern analysis specialist who provides succinct answers: ", "query":"What is the next number in this series? 1, 2, 4, 8, 16, ?", "response":"32" }{ "system":"You have great attention to detail and follow instructions accurately: ", "query":"Repeat only the last two words of the following: I ate a hamburger today and it was kind of dry", "response":"of dry" }

    Untuk menggunakan kumpulan data kustom Anda, ubah resep evaluasi Anda dengan bidang wajib berikut, jangan ubah konten apa pun:

    evaluation: task: gen_qa strategy: gen_qa metric: all

    Batasan

    • Hanya satu .jsonl file yang diizinkan per evaluasi.

    • File harus benar-benar mengikuti skema yang ditentukan.

    Nova LLM Judge adalah fitur evaluasi model yang memungkinkan Anda membandingkan kualitas respons dari satu model dengan respons model dasar menggunakan kumpulan data khusus. Ini menerima kumpulan data yang berisi petunjuk, respons dasar, dan respons penantang, kemudian menggunakan model Nova Judge untuk memberikan metrik tingkat kemenangan berdasarkan probabilitas Bradley-Terry melalui perbandingan berpasangan. Format resep:xxx_llm_judge _eval.yaml.

    Persyaratan set data Nova LLM

    Format berkas:

    • llm_judge.jsonlFile tunggal yang berisi contoh evaluasi. Nama file harus tepatllm_judge.jsonl.

    • Anda harus mengunggah kumpulan data Anda ke lokasi S3 tempat pekerjaan SageMaker pelatihan dapat diakses.

    • File harus mengikuti format skema yang diperlukan untuk llm_judge kumpulan data.

    • Dataset input harus memastikan semua catatan berada di bawah panjang konteks 12 k.

    Format skema - Setiap baris dalam .jsonl file harus berupa objek JSON dengan bidang berikut.

    • Bidang yang diperlukan.

      prompt: String yang berisi prompt untuk respons yang dihasilkan.

      response_A: String yang berisi respons dasar.

      response_B: String yang berisi respons alternatif dibandingkan dengan respons dasar.

    Entri contoh

    { "prompt": "What is the most effective way to combat climate change?", "response_A": "The most effective way to combat climate change is through a combination of transitioning to renewable energy sources and implementing strict carbon pricing policies. This creates economic incentives for businesses to reduce emissions while promoting clean energy adoption.", "response_B": "We should focus on renewable energy. Solar and wind power are good. People should drive electric cars. Companies need to pollute less." } { "prompt": "Explain how a computer's CPU works", "response_A": "CPU is like brain of computer. It does math and makes computer work fast. Has lots of tiny parts inside.", "response_B": "A CPU (Central Processing Unit) functions through a fetch-execute cycle, where instructions are retrieved from memory, decoded, and executed through its arithmetic logic unit (ALU). It coordinates with cache memory and registers to process data efficiently using binary operations." } { "prompt": "How does photosynthesis work?", "response_A": "Plants do photosynthesis to make food. They use sunlight and water. It happens in leaves.", "response_B": "Photosynthesis is a complex biochemical process where plants convert light energy into chemical energy. They utilize chlorophyll to absorb sunlight, combining CO2 and water to produce glucose and oxygen through a series of chemical reactions in chloroplasts." }

    Untuk menggunakan kumpulan data kustom Anda, ubah resep evaluasi Anda dengan bidang wajib berikut, jangan ubah konten apa pun:

    evaluation: task: llm_judge strategy: judge metric: all

    Batasan

    • Hanya satu .jsonl file yang diizinkan per evaluasi.

    • File harus benar-benar mengikuti skema yang ditentukan.

    • Model Nova Judge sama di seluruh spesifikasi mikro/lite/pro.

    • Model juri khusus saat ini tidak didukung.

    Menjalankan pekerjaan pelatihan evaluasi

    Mulai pekerjaan pelatihan menggunakan contoh notebook Jupyter berikut. Untuk informasi selengkapnya, lihat Menggunakan estimator SageMaker AI untuk menjalankan pekerjaan pelatihan.

    Tabel referensi

    Sebelum menjalankan buku catatan, lihat tabel referensi berikut untuk memilih URI gambar dan konfigurasi instance.

    Memilih URI gambar

    Resep URI citra

    URI gambar evaluasi

    708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-evaluation-repo:SM-TJ-Eval-latest

    Memilih jenis dan hitungan instans

    Model Jenis Tugas Jenis instans Jumlah instans yang disarankan Jumlah instans yang diizinkan
    Amazon Nova Mikro Evaluasi (SFT/DPO)

    g5.12xlarge

    1 1
    Amazon Nova Lite Evaluasi (SFT/DPO)

    g5.12xlarge

    1 1
    Amazon Nova Pro Evaluasi (SFT/DPO)

    p5.48xlarge

    1 1

    Notebook sampel

    Contoh notebook berikut menunjukkan bagaimana menjalankan pekerjaan pelatihan evaluasi.

    # install python SDK !pip install sagemaker import os import sagemaker,boto3 from sagemaker.inputs import TrainingInput from sagemaker.pytorch import PyTorch sagemaker_session = sagemaker.Session() role = sagemaker.get_execution_role() # Download recipe from https://github.com/aws/sagemaker-hyperpod-recipes/tree/main/recipes_collection/recipes/evaluation/nova to local # Assume the file name be `recipe.yaml` # Populate parameters # input_s3_uri = "s3://<path>/input/" # (Optional) Only used for multi-modal dataset or bring your own dataset s3 location output_s3_uri= "s3://<path>/output/" # Output data s3 location, a zip containing metrics json and tensorboard metrics files will be stored to this location instance_type = "instace_type" # ml.g5.16xlarge as example job_name = "your job name" recipe_path = "recipe path" # ./recipe.yaml as example image_uri = "708977205387.dkr.ecr.us-east-1.amazonaws.com/nova-evaluation-repo:SM-TJ-Eval-latest" # Do not change # (Optional) To bring your own dataset and LLM judge for evaluation # evalInput = TrainingInput( # s3_data=input_s3_uri, # distribution='FullyReplicated', # s3_data_type='S3Prefix' #) estimator = PyTorch( output_path=output_s3_uri, base_job_name=job_name, role=role, instance_type=instance_type, training_recipe=recipe_path, sagemaker_session=sagemaker_session, image_uri = image_uri ) estimator.fit() # If input dataset exist, pass in inputs # estimator.fit(inputs={"train": evalInput})

    Menilai dan menganalisis hasil evaluasi

    Setelah pekerjaan evaluasi Anda selesai dengan sukses, Anda dapat menilai dan menganalisis hasilnya menggunakan langkah-langkah berikut.

    Untuk menilai dan menganalisis hasil, ikuti langkah-langkahnya.
    1. Memahami struktur lokasi output. Hasil disimpan di lokasi keluaran Amazon S3 yang Anda tentukan sebagai file terkompresi:

      s3://your-bucket/output/benchmark-name/ └── job_name/ └── output/ └── output.tar.gz
    2. Unduh output.tar.gz file dari ember Anda. Ekstrak konten untuk mengungkapkan. Ada untuk semua tolok ukur kecualistrong_reject.

      run_name/ ├── eval_results/ │ └── results_[timestamp].json | └── details/ | └── model/ | └── <execution-date-time>/ | └──details_<task_name>_#_<datetime>.parquet └── tensorboard_results/ └── eval/ └── events.out.tfevents.[timestamp]
      • results_[timestamp].json- Keluaran metrik file JSON

      • details_<task_name>_#_<datetime>.parquet- File keluaran inferensi

      • events.out.tfevents.[timestamp]- Berkas TensorBoard keluaran

    3. Lihat hasil di TensorBoard. Untuk memvisualisasikan metrik evaluasi Anda:

      1. Unggah folder yang diekstrak ke bucket S3

      2. Arahkan ke SageMaker TensorBoard

      3. Pilih “folder S3" Anda

      4. Tambahkan jalur folder S3

      5. Tunggu sinkronisasi selesai

    4. Menganalisis output inferensi. Semua tugas evaluasi kecuali llm_judge akan memiliki bidang berikut untuk analisis dalam output inferensi.

      • full_prompt- prompt pengguna penuh dikirim ke model yang digunakan untuk tugas evaluasi.

      • gold- bidang yang berisi jawaban yang benar seperti yang ditentukan oleh dataset.

      • metrics- bidang yang berisi metrik yang dievaluasi pada inferensi individu. Nilai yang membutuhkan agregasi tidak akan memiliki nilai pada output inferensi individu.

      • predictions- bidang yang berisi daftar output model untuk prompt yang diberikan.

      Dengan melihat bidang ini, Anda dapat menentukan penyebab perbedaan metrik dan memahami perilaku model yang disesuaikan.

      Untukllm_judge, file keluaran inferensi berisi bidang berikut di bawah bidang metrik per pasangan evaluasi.

      • forward_output- Preferensi mentah hakim saat mengevaluasi secara berurutan (Response_a, response_b).

      • backward_output- Preferensi mentah hakim saat mengevaluasi dalam urutan terbalik (Response_b, response_a).

      • Pairwise metrics- Metrik yang dihitung per pasang evaluasi maju dan mundur termasuka_scores,, b_scoresties, inference-score dan. score

        catatan

        Metrik agregat seperti hanya winrate tersedia di file hasil ringkasan, bukan per penilaian individu.

    Evaluasi praktik terbaik dan pemecahan masalah

    Praktik terbaik

    Berikut ini mencantumkan beberapa praktik terbaik untuk proses evaluasi.

    • Jaga agar jalur keluaran Anda diatur berdasarkan model dan tipe benchmark.

    • Pertahankan konvensi penamaan yang konsisten untuk memudahkan pelacakan.

    • Simpan hasil yang diekstraksi di lokasi yang aman.

    • Pantau status TensorBoard sinkronisasi untuk pemuatan data yang berhasil.

    Pemecahan Masalah

    Anda dapat menggunakan grup CloudWatch log /aws/sagemaker/TrainingJobs untuk melatih log kesalahan pekerjaan.

    CUDA Kehabisan Kesalahan Memori

    Masalah:

    Saat menjalankan evaluasi model, Anda menerima kesalahan berikut:

    torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate X MiB. GPU 0 has a total capacity of Y GiB of which Z MiB is free.

    Penyebab:

    Kesalahan ini terjadi ketika Anda mencoba memuat model yang membutuhkan lebih banyak memori GPU daripada yang tersedia pada jenis instans Anda saat ini.

    Solusi:

    Pilih jenis instans dengan lebih banyak memori GPU. Misalnya, jika Anda menggunakan G5.12xLarge (memori GPU 96 GiB), tingkatkan ke G5.48xLarge (memori GPU 192 GiB)

    Pencegahan:

    Sebelum menjalankan evaluasi model, lakukan hal berikut.

    • Perkirakan kebutuhan memori model Anda

    • Pastikan jenis instans yang Anda pilih memiliki memori GPU yang cukup

    • Pertimbangkan overhead memori yang diperlukan untuk pemuatan dan inferensi model

    Subtugas yang tersedia

    Berikut daftar subtugas yang tersedia untuk evaluasi model di beberapa domain termasuk MMLU (Massive Multitask Language Understanding), BBH (Big Bench Hard), matematika, dan MMMU (Massive Multitask Multimodal Understanding). Subtugas ini memungkinkan Anda menilai kinerja model Anda pada kemampuan dan bidang pengetahuan tertentu.

    MMLU

    MMLU_SUBTASKS = [ "abstract_algebra", "anatomy", "astronomy", "business_ethics", "clinical_knowledge", "college_biology", "college_chemistry", "college_computer_science", "college_mathematics", "college_medicine", "college_physics", "computer_security", "conceptual_physics", "econometrics", "electrical_engineering", "elementary_mathematics", "formal_logic", "global_facts", "high_school_biology", "high_school_chemistry", "high_school_computer_science", "high_school_european_history", "high_school_geography", "high_school_government_and_politics", "high_school_macroeconomics", "high_school_mathematics", "high_school_microeconomics", "high_school_physics", "high_school_psychology", "high_school_statistics", "high_school_us_history", "high_school_world_history", "human_aging", "human_sexuality", "international_law", "jurisprudence", "logical_fallacies", "machine_learning", "management", "marketing", "medical_genetics", "miscellaneous", "moral_disputes", "moral_scenarios", "nutrition", "philosophy", "prehistory", "professional_accounting", "professional_law", "professional_medicine", "professional_psychology", "public_relations", "security_studies", "sociology", "us_foreign_policy", "virology", "world_religions" ]

    BBH

    BBH_SUBTASKS = [ "boolean_expressions", "causal_judgement", "date_understanding", "disambiguation_qa", "dyck_languages", "formal_fallacies", "geometric_shapes", "hyperbaton", "logical_deduction_five_objects", "logical_deduction_seven_objects", "logical_deduction_three_objects", "movie_recommendation", "multistep_arithmetic_two", "navigate", "object_counting", "penguins_in_a_table", "reasoning_about_colored_objects", "ruin_names", "salient_translation_error_detection", "snarks", "sports_understanding", "temporal_sequences", "tracking_shuffled_objects_five_objects", "tracking_shuffled_objects_seven_objects", "tracking_shuffled_objects_three_objects", "web_of_lies", "word_sorting" ]

    Matematika

    MATH_SUBTASKS = [ "algebra", "counting_and_probability", "geometry", "intermediate_algebra", "number_theory", "prealgebra", "precalculus", ]

    MMMU

    MATH_SUBTASKS = [ "Accounting", "Agriculture", "Architecture_and_Engineering", "Art", "Art_Theory", "Basic_Medical_Science", "Biology", "Chemistry", "Clinical_Medicine", "Computer_Science", "Design", "Diagnostics_and_Laboratory_Medicine", "Economics", "Electronics", "Energy_and_Power", "Finance", "Geography", "History", "Literature", "Manage", "Marketing", "Materials", "Math", "Mechanical_Engineering", "Music", "Pharmacy", "Physics", "Psychology", "Public_Health", "Sociology", ]