Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Lanjutan Pra-Pelatihan dan Pertengahan Pelatihan
catatan
Dokumentasi rinci disediakan setelah berlangganan
Nova Forge CPT menawarkan kemampuan canggih di luar CPT standar, termasuk akses ke pos pemeriksaan menengah dan pencampuran data dengan korpus pra-pelatihan Nova. Fitur-fitur ini memungkinkan adaptasi domain yang lebih efisien dan pelestarian kemampuan umum model yang lebih baik.
Apa itu pos pemeriksaan menengah dan mengapa mereka dibutuhkan?
Pos pemeriksaan menengah adalah snapshot dari model Amazon Nova yang disimpan pada berbagai tahap pra-pelatihan, sebelum model mencapai kondisi siap produksi akhir. Selama pengembangan model, Amazon Nova menjalani beberapa fase pelatihan: pra-pelatihan awal dengan tingkat pembelajaran konstan, tingkat pembelajaran ramp-down, pelatihan ekstensi konteks, dan akhirnya pelatihan penyelarasan dan keselamatan mengikuti instruksi. Untuk CPT, pos pemeriksaan perantara seringkali lebih disukai daripada pos pemeriksaan Prod akhir karena lebih plastis dan mudah menerima adaptasi domain. Pos pemeriksaan Prod telah menjalani pelatihan penyelarasan dan keselamatan mengikuti instruksi ekstensif, yang mengoptimalkan model untuk penggunaan percakapan umum tetapi dapat membuatnya tahan terhadap mempelajari pola spesifik domain baru selama CPT. Sebaliknya, hanya pos pemeriksaan teks yang telah dilatih sebagian dan sepenuhnya yang mempertahankan karakteristik pra-pelatihan model. Mereka belum banyak diarahkan ke perilaku tertentu, menjadikannya titik awal yang lebih efisien untuk adaptasi domain. Saat melakukan CPT skala besar (>10B token), mulai dari pos pemeriksaan menengah biasanya menghasilkan konvergensi yang lebih cepat, stabilitas pelatihan yang lebih baik, dan akuisisi pengetahuan domain yang lebih efektif. Namun, untuk CPT skala kecil (<10B token), atau ketika kemampuan mengikuti instruksi perlu dipertahankan, pos pemeriksaan Prod mungkin lebih tepat karena memungkinkan adaptasi domain sambil mempertahankan kemampuan percakapan model.
Beberapa pos pemeriksaan perantara diperlukan untuk CPT karena mereka menawarkan berbagai tingkat plastisitas model yang memengaruhi seberapa efisien model dapat menyerap pengetahuan domain baru. Pos pemeriksaan Prod terakhir telah menjalani pelatihan penyelarasan dan keselamatan mengikuti instruksi ekstensif, yang mengoptimalkannya untuk penggunaan percakapan umum tetapi membuatnya tahan terhadap mempelajari pola spesifik domain baru. Dengan kata lain, Itu telah diperkeras melalui pasca-pelatihan. Sebaliknya, pos pemeriksaan sebelumnya mempertahankan karakteristik pra-pelatihan model dan belum banyak diarahkan ke perilaku tertentu, membuatnya lebih plastis dan mudah menerima adaptasi domain.
Untuk mencapai efisiensi pelatihan terbaik, beberapa pos pemeriksaan menengah disediakan.
Pos pemeriksaan apa yang tersedia?
Nova 1.0
Keluarga Amazon Nova 1.0 memiliki tiga model (Micro, Lite, Pro) dan untuk setiap model ada tiga pos pemeriksaan yang tersedia.
-
PRE-TRAINED - [
nova-<micro/lite/pro>/pretraining-text-partial]: Ini adalah pos pemeriksaan setelah tahap tingkat pembelajaran konstan dari pra-pelatihan Amazon Nova di mana model dilatih pada triliunan token teks. -
MID-TRAINED - [
nova-<micro/lite/pro>/pretraining-text-full]: Ini adalah pos pemeriksaan teks saja setelah semua tahapan pra-pelatihan dan pelatihan menengah Amazon Nova dengan triliunan token teks telah selesai. Gunakan ini jika model secara khusus seharusnya tidak melihat data multi-modal. -
MID-TRAINED - [
nova-<lite/pro>/pretraining-mm-full]: Ini adalah pos pemeriksaan setelah semua tahapan pra-pelatihan dan pelatihan menengah Amazon Nova, termasuk data multi-modal, dengan triliunan token telah diproses. -
POST-TRAINED - [
nova-<micro/lite/pro>/prod]: Ini adalah pos pemeriksaan akhir yang sepenuhnya selaras dari model yang telah melalui semua langkah pra-pelatihan dan pasca pelatihan.
Nova 2.0
Ada tiga pos pemeriksaan Amazon Nova Lite 2.0.
-
PRE-TRAINED - [
nova-lite-2/pretraining-text-RD]: Ini adalah pos pemeriksaan setelah tingkat pembelajaran konstan dan tahap ramp-down dari pra-pelatihan Amazon Nova di mana model dilatih pada triliunan token. -
MID-TRAINED - [
nova-lite-2/pretraining-text-CE]: Pos pemeriksaan ini memungkinkan volume menengah dari data tidak terstruktur diperkenalkan dengan tingkat pembelajaran yang lebih konservatif daripada pra-pelatihan, menyerap pengetahuan khusus domain sambil menghindari bencana lupa. -
POST-TRAINED - [
nova-lite-2/prod]: Ini adalah pos pemeriksaan akhir yang sepenuhnya selaras dari model yang telah melalui semua langkah terkait dan pasca pelatihan.
Tabel berikut menguraikan kondisi yang berbeda untuk pra dan pertengahan pelatihan.
Tipe data |
Melakukan |
Dengan Checkpoint |
|---|---|---|
Data domain mentah tidak terstruktur skala besar (dokumen, log, artikel, kode, dll.) |
Lanjutan Pra-Pelatihan |
Pra-terlatih |
Data domain mentah tidak terstruktur skala besar (dokumen, log, artikel, kode, dll.) |
Pertengahan Pelatihan |
Pra-terlatih |
Volume data mentah tidak terstruktur yang lebih kecil. Jejak penalaran terstruktur/data CoT |
Pertengahan Pelatihan |
Menengah Terlatih |
Demonstrasi terstruktur (pasangan input-output berkualitas tinggi, instruksi tugas yang dikuratori, dialog multi-putaran) |
Penyetelan Sempurna Penuh |
Menengah Terlatih |
Demonstrasi terstruktur (pasangan input-output berkualitas tinggi, instruksi tugas yang dikuratori, dialog multi-putaran) |
Parameter Fine-Tuning yang Efisien |
Pasca Terlatih |
Pos pemeriksaan mana yang akan digunakan?
Hanya teks yang telah dilatih sebagian dan pos pemeriksaan teks yang sepenuhnya dilatih sebelumnya biasanya berkumpul lebih cepat dan membutuhkan lebih sedikit langkah pelatihan untuk adaptasi domain. Namun, mereka tidak memiliki penyetelan instruksi dan perlu menjalani langkah-langkah pasca pelatihan untuk dapat melakukan tugas yang berguna dan mengikuti instruksi. Pos pemeriksaan GA mungkin memerlukan lebih banyak langkah untuk beradaptasi tetapi memberikan titik awal yang lebih aman untuk eksperimen skala kecil dan akan mempertahankan beberapa kemampuan pasca pelatihan TI bahkan setelah pelatihan CPT.
Secara umum, dengan kumpulan data pelatihan yang besar (>10B token), mulai dari teks yang telah dilatih sebagian saja atau pos pemeriksaan teks yang sepenuhnya dilatih sebelumnya untuk pelatihan yang lebih efisien dan stabil, karena basis pengetahuan model akan dimodifikasi secara substansional. Dengan kumpulan data kecil (<10B token), gunakan pos pemeriksaan GA untuk mempertahankan kemampuan mengikuti instruksi sambil beradaptasi dengan domain.
Bagaimana cara menggunakan pencampuran data untuk model 1.0 atau 2.0?
Saat melakukan CPT dengan data domain baru, sangat bermanfaat untuk mencampur data baru dengan beberapa data yang digunakan sebelumnya dalam tahap pra-pelatihan model. Mencampur data lama dengan data domain baru memecahkan dua masalah:
-
Melupakan kontrol: Mencegah bencana lupa dengan melestarikan keterampilan dan pengetahuan model yang ada. Tanpa pencampuran data, pelatihan secara eksklusif pada data domain yang sempit menyebabkan model menimpa kemampuan umum. Misalnya, model yang dilatih hanya pada dokumen hukum mungkin kehilangan kemampuannya untuk membuat kode atau melakukan matematika. Mencampur kumpulan data domain umum mempertahankan keterampilan umum ini saat memperoleh domain baru.
-
Stabilitas optimasi: Menjaga stabilitas pelatihan dengan menambatkan representasi internal model. Selama CPT, fitur yang dipelajari model dimodifikasi dan pencampuran data memberikan gradien dari beragam sumber yang memandu adaptasi ini dengan lancar. Tanpa itu, pelatihan tentang distribusi sempit dapat menyebabkan ketidakstabilan gradien, di mana representasi model bergeser terlalu drastis, yang mengarah ke divergensi pelatihan, lonjakan kehilangan, atau runtuhnya kemampuan yang ada. Ini adalah tradeoff stabilitas-plastisitas: model harus cukup plastis untuk mempelajari pengetahuan domain baru, tetapi cukup stabil untuk tidak merusak apa yang sudah diketahui.
Kemampuan Pencampuran Data Nova CPT
Akses ke data pra-pelatihan Amazon Nova dan pos pemeriksaan adalah salah satu penawaran inti dari kustomisasi Amazon Nova CPT. Kustomisasi Amazon Nova CPT memungkinkan pencampuran data domain yang mudah dengan korpus pra-pelatihan Amazon Nova. Selanjutnya, rasio pengambilan sampel dari kategori data Amazon Nova tertentu (misalnya, kode, matematika, penalaran, dll) dapat diubah dan proporsinya dikontrol untuk melengkapi data domain. Hal ini memungkinkan penguatan kemampuan yang selaras dengan kasus penggunaan sambil mengadaptasi model ke domain tertentu.
Menemukan Rasio Pencampuran Optimal
Rasio optimal data Amazon Nova versus data domain tergantung pada domain kumpulan data, kompleksitas, ukuran, kualitas, dan pentingnya mempertahankan kemampuan umum. Rasio ini harus ditemukan melalui eksperimen. Kerangka percobaan untuk memutuskan berapa banyak data Amazon Nova yang akan dicampur adalah sebagai berikut.
Pilih subset representatif dari data domain (misalnya, token 5B) dan pertahankan konstanta ini di semua proses eksperimental.
Jalankan eksperimen CPT skala kecil dengan hanya memvariasikan jumlah data Amazon Nova yang dicampur dalam:
-
Tanpa pencampuran: 100% domain → domain 5B saja (total 5B)
-
Pencampuran ringan: domain 90% → Domain 5B+~ 0,56B Amazon Nova (total ~ 5,56B)
-
Pencampuran sedang: domain 70% → domain 5B + ~ 2.14B Amazon Nova (total ~ 7.14B)
-
Pencampuran berat: domain 50% → Domain 5B+5B Amazon Nova (total 10B)
Evaluasi setiap pos pemeriksaan di dalam domain dan tolok ukur domain umum. Juga evaluasi pos pemeriksaan awal (pos pemeriksaan Amazon Nova sebelum pelatihan apa pun).
-
Apakah kinerja domain pelanggan tetap kira-kira konstan di seluruh proses? Biasanya harus, karena setiap run melihat jumlah token domain yang sama. Jika kinerja domain meningkat dengan lebih banyak pencampuran, data Amazon Nova memberikan regularisasi yang berguna.
-
Apakah skor benchmark umum meningkat saat pencampuran meningkat?
-
Perilaku yang diharapkan adalah bahwa kemampuan umum harus meningkat secara monoton karena lebih banyak data Amazon Nova ditambahkan.
-
Ukur beberapa tolok ukur umum: MMLU (pengetahuan umum), HumanEval (pengkodean), GSM8 K (matematika), atau tolok ukur tertentu yang menarik.
-
-
Pilih rasio pencampuran yang mempertahankan kinerja domain sambil memberikan kemampuan umum yang dapat diterima untuk kasus penggunaan. Faktor biaya tambahan pelatihan dengan lebih banyak pencampuran data.
Setelah rasio pencampuran optimal diidentifikasi, jalankan CPT skala penuh menggunakan kumpulan data domain lengkap dengan rasio pencampuran yang dipilih.
Batasan
CPT saat ini hanya mendukung data teks dan tidak mendukung kumpulan data multi-modal pelanggan.