Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Penggabungan Model
penting
Sepanjang dokumen ini, kami akan merujuk “model dasar” sebagai salah satu dari dua model. Ini bisa menjadi model dasar asli (misalnya Nova Lite 2.0) jika tidak ada pelatihan berulang yang dijalankan, atau output dari latihan berulang sebelumnya.
Setelah fine-tuning selesai, model khusus Anda melewati langkah penggabungan model opsional yang dapat dikonfigurasi pengguna yang memadukan pengetahuan yang baru dipelajari dengan kemampuan “model dasar”. Proses ini memastikan bahwa model akhir Anda mempertahankan kecerdasan asli dari “model dasar” sambil menggabungkan perilaku khusus yang dipelajari selama pelatihan fine-tuning terbaru. Penggabungan model mengurangi fenomena yang dikenal sebagai pelupa bencana, di mana model kehilangan pengetahuan yang dipelajari sebelumnya setelah disetel dengan baik pada data baru.
Model menggabungkan penerapan berdasarkan jenis pelatihan
Penggabungan model hanya dapat dikonfigurasi untuk pelatihan SFT. Tabel berikut merangkum perilaku penggabungan model untuk setiap jenis pelatihan:
| Jenis pelatihan | Perilaku penggabungan model |
|---|---|
| Diawasi Fine-Tuning (SFT) | User-configurable penggabungan model diterapkan. Anda dapat mengontrol bobot gabungan antara model fine-tuned dan model dasar seperti yang dijelaskan dalam dokumen ini. |
| Penguatan Fine-Tuning (RFT) | Tidak ada penggabungan model. Pos pemeriksaan model terlatih adalah output langsung sebagai model akhir. Tidak ada model dasar yang terlibat dalam langkah penggabungan. |
| Lanjutan Pre-Training (CPT) | Tidak ada penggabungan model. Pos pemeriksaan model terlatih adalah output langsung sebagai model akhir. Tidak ada model dasar yang terlibat dalam langkah penggabungan. |
Kapan menggunakan penggabungan model
Anda harus mengaktifkan penggabungan model saat:
-
Kemampuan umum menurun setelah fine-tuning. Jika model Anda yang disetel dengan baik kehilangan kinerja pada tugas di luar data pelatihan Anda (misalnya, matematika, penalaran, atau pengkodean), penggabungan memadukan kembali pengetahuan model dasar untuk memulihkan keterampilan tersebut.
-
Iterative/continual pelatihan. Saat menyempurnakan di atas pos pemeriksaan yang sebelumnya disesuaikan, penggabungan sangat penting untuk mempertahankan keterampilan yang dipelajari di putaran sebelumnya. Tanpa itu, setiap babak baru dapat menimpa apa yang diajarkan babak sebelumnya.
Anda mungkin tidak memerlukan penggabungan model saat:
-
Anda hanya ingin memaksimalkan kinerja tugas target dan retensi kemampuan umum tidak menjadi perhatian.
-
Mendaki bukit. Anda ingin melanjutkan iterasi pada kumpulan data yang sama untuk mengoptimalkan kinerja eval lebih lanjut.
-
Anda menggunakan fine-tuning berbasis penalaran. Penelitian telah menunjukkan SFT berbasis penalaran secara signifikan mengurangi bencana lupa.
Cara mengonfigurasi bobot penggabungan model
Nilai default model_importance_score.fine_tuned_model adalah 1.0, artinya pos pemeriksaan keluaran pelatihan menggunakan bobot yang disetel dengan baik seluruhnya, tanpa pencampuran dari “model dasar”. Default berfungsi dengan baik ketika data pelatihan Anda komprehensif dan secara dekat mewakili tugas target Anda.
training_config: # ... model_importance_score: fine_tuned_model: 0.75 # set value between 0.0 to 1.0 inclusive
model_importance_score.fine_tuned_modelnilai yang mendekati 1.0 membuat model condong ke data Anda yang disetel dengan baik, sementara nilai yang mendekati 0,0 mempertahankan lebih banyak kemampuan umum model dasar. Dalam contoh di atas, model terlatih akhir diproduksi dengan menggabungkan 75% model fine tuned pada dataset tertentu dengan 25% dari “model dasar”.
Jika Anda memperhatikan bahwa model yang disetel dengan baik kehilangan kemampuan umum (misalnya, penurunan kinerja pada tugas di luar data pelatihan Anda), kurangi
model_importance_score.fine_tuned_model untuk memadukan lebih banyak pengetahuan “model dasar”.
catatan
Meskipun kami dapat mengonfigurasi bobot proses penggabungan model, pengguna tidak dapat memilih model mana yang akan digabungkan. Dengan kata lain, itu akan selalu berada di antara “model dasar” dan model yang disetel dengan baik dari pelatihan saat ini. “Model dasar” dapat berupa model pondasi asli (misalnya Nova Lite 2.0), atau output dari latihan berulang sebelumnya.
Memilih model menggabungkan bobot
model_importance_score.fine_tuned_modelParameter mengontrol keseimbangan antara model yang disetel dengan baik dan model dasar. Mulailah dengan pedoman ini:
| Skenario | Berat awal yang disarankan | Dasar Pemikiran |
|---|---|---|
| Single-round SFT dengan data pelatihan yang komprehensif | 1.0 (default, tidak ada penggabungan) | Data pelatihan Anda mencakup tugas target dengan baik; penggabungan akan melemahkan perilaku yang dipelajari tanpa manfaat. |
| Single-round SFT di mana kemampuan umum menurun | 0,7—0,9 | Memadukan pengetahuan model dasar yang cukup untuk memulihkan keterampilan umum (matematika, penalaran, pengkodean) sambil mempertahankan sebagian besar kinerja yang disetel dengan baik. |
| Iterative/continual SFT (membangun di pos pemeriksaan sebelumnya) | 0,3—0,7 | Bobot yang lebih rendah mempertahankan lebih banyak pengetahuan dari putaran pelatihan sebelumnya. Tanpa penggabungan, putaran selanjutnya dapat menimpa keterampilan yang dipelajari di babak sebelumnya. |
| Eksplorasi/tidak yakin | 0,7 | Jalan tengah yang masuk akal; sesuaikan berdasarkan hasil evaluasi. |
Prinsip umum: Bobot yang lebih tinggi (mendekati 1.0) memaksimalkan kinerja tugas target tetapi berisiko kehilangan kemampuan umum. Bobot yang lebih rendah (mendekati 0,0) mempertahankan keterampilan luas model dasar tetapi mengurangi spesialisasi. Tidak ada nilai optimal secara universal — bobot yang tepat tergantung pada ukuran dataset Anda, domain tumpang tindih dengan model dasar, dan kemampuan mana yang perlu Anda pertahankan.
Tip
Jika data pelatihan Anda mencakup jejak penalaran (rantai pemikiran), Anda biasanya dapat menggunakan bobot penggabungan yang lebih tinggi (atau melewatkan penggabungan seluruhnya pada 1.0), karena data yang ditambah penalaran bertindak sebagai pengatur yang mempertahankan kemampuan umum.
Mengevaluasi berat gabungan Anda
Setelah pelatihan selesai, evaluasi model gabungan untuk memastikan bobot penggabungan sesuai. Anda tidak memerlukan beberapa latihan — satu pass evaluasi dapat memberi tahu Anda apakah akan menyesuaikan diri.
-
Target kinerja tugas - Jalankan evaluasi spesifik domain Anda (akurasi, F1, skor ekstraksi, dll.) Pada set tes yang ditahan. Bandingkan dengan model dasar (sebelum melakukan fine-tuning) untuk mengonfirmasi peningkatan kinerja fine-tuning. Jika kenaikan atas model dasar lebih kecil dari yang diharapkan, bobot gabungan Anda mungkin terlalu rendah — bobot model dasar menipiskan apa yang dipelajari selama pelatihan.
-
Pemeriksaan titik kemampuan umum — Prompt model gabungan dengan beberapa tugas di luar domain pelatihan Anda (misalnya, masalah kata matematika, permintaan ringkasan, atau pertanyaan pengkodean). Bandingkan tanggapan secara kualitatif dengan model dasar. Jika respons model gabungan terasa lebih buruk daripada model dasar — tidak koheren, menolak menjawab, atau menghasilkan omong kosong pada tugas yang ditangani model dasar dengan baik — bobot penggabungan Anda terlalu tinggi dan model telah kehilangan kemampuan umum.
Cara kerja penggabungan: Full-rank fine-tuning
Full-rank pelatihan menghasilkan satu set lengkap bobot model. Selama penggabungan, setiap parameter dihitung sebagai campuran tertimbang:
# Weighted interpolation Merged Model = (1 - model_importance_score.fine_tuned_model) * Base Model + model_importance_score.fine_tuned_model * Fine-Tuned Model
Misalnya, denganmodel_importance_score.fine_tuned_model = 0.3, model gabungan adalah 70% pengetahuan “model dasar” dan 30% pengetahuan yang disetel dengan baik.
Cara kerja penggabungan: Penyetelan halus LoRa
LoRa (Low-Rank Adaptasi) mempelajari sepasang matriks peringkat rendah (A dan B) yang mewakili adaptasi sebagai pembaruan peringkat rendah. Selama proses penggabungan model, setiap matriks LoRa A A dan B diskalakan dengan
model_importance_score.fine_tuned_model seperti yang ditunjukkan di bawah ini. Dalam rumus ini,
alpha adalah faktor penskalaan LoRa (peft.lora_tuning.alphadalam resep pelatihan Anda) dan rank merupakan peringkat LoRa. Untuk
alpha nilai yang tersedia, lihat resep pelatihan LoRa SFT
Perhatikan bahwa, pada titik ini, matriks A dan B hanya berisi pengetahuan dari proses fine-tuning terbaru. Ia tidak memiliki pengetahuan tentang pelatihan sebelumnya. Pengetahuan dari pelatihan sebelumnya akan berasal dari penggabungan model dengan “model dasar” atau penggabungan adaptor LoRa tahap sebelumnya yang dijelaskan di bawah ini.
Scaled_A = sqrt(model_importance_score.fine_tuned_model) * sqrt(alpha/rank) * A Scaled_B = sqrt(model_importance_score.fine_tuned_model) * sqrt(alpha/rank) * B
Pelatihan LoRa menghasilkan dua artefak model: model yang sepenuhnya digabungkan dan satu set adaptor LoRa gabungan. Mari kita lihat masing-masing secara terpisah.
Model yang sepenuhnya digabungkan
Pembaruan LoRa diskalakan dan ditambahkan ke “model dasar”:
Merged Model = Base Model + (Scaled_B @ Scaled_A)
Sekarang Merged Model memiliki pengetahuan dari kedua pelatihan saat ini serta mewarisi beberapa pengetahuan dari Base Model tergantung pada pengguna yang dikonfigurasimodel_importance_score.fine_tuned_model.
Adaptor LoRa yang digabungkan
Bagaimana adaptor LoRa digabungkan tergantung pada apakah Anda melakukan pelatihan satu tahap atau berulang.
-
Untuk pelatihan LoRa satu tahap (tidak ada pelatihan berulang), adaptor LoRa yang disetel dengan baik disimpan secara langsung tanpa penggabungan, karena tidak ada set adaptor LoRa sebelumnya untuk digabungkan.
-
Dalam alur kerja All-LoRa berulang, adaptor dari setiap tahap digabungkan menjadi satu set:
Merged = Stage1_Scaled_B @ Stage1_Scaled_A + Stage2_Scaled_B @ Stage2_Scaled_AAdaptor
MergedLoRa akan berisi pengetahuan tentang iterasi pelatihan sebelumnya serta pengetahuan fine-tuning terbaru, berdasarkan yang ditentukan pengguna.model_importance_score.fine_tuned_modelJuga, harap perhatikan baik-baik pembatasan pelatihan berulang tentang pencampuran LoRa dan Full-rank pelatihan.
Adaptor gabungan ini Merged_B dan Merged_A mencerminkan riwayat pelatihan lengkap dan digunakan untuk inferensi sesuai permintaan.