本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
持續訓練前和中訓練
注意
訂閱後提供詳細文件
Nova Forge CPT 提供標準 CPT 以外的進階功能,包括存取中繼檢查點,以及與 Nova 預先訓練體混合的資料。這些功能可更有效率地調整網域,並更好地保留模型的一般功能。
什麼是中繼檢查點?為什麼需要中繼檢查點?
中繼檢查點是在模型達到最終生產就緒狀態之前,儲存在預先訓練不同階段的 Amazon Nova 模型快照。在模型開發期間,Amazon Nova 會經歷多個訓練階段:具有持續學習率的初始預先訓練、學習率逐步下降、內容延伸訓練,以及最後的指示遵循一致性和安全性訓練。對於 CPT,中繼檢查點通常比最終產品檢查點更喜歡,因為它們更可整形且接受網域適應。Prod 檢查點經過廣泛的指示遵循一致性和安全性訓練,可最佳化模型以供一般對話使用,但可以在 CPT 期間防止學習新的領域特定模式。相反地,部分和完全預先訓練的純文字檢查點會保留模型的預先訓練特性。它們尚未嚴重轉向特定行為,使它們更有效率地開始適應網域。執行大規模 CPT (>10B 權杖) 時,從中繼檢查點開始,通常會導致收斂速度更快、訓練穩定性更好,以及更有效地取得領域知識。不過,對於小規模 CPT (<10B 權杖),或需要保留指示遵循功能時,Prod 檢查點可能更適合,因為它允許網域適應,同時維持模型的對話能力。
CPT 需要多個中繼檢查點,因為它們提供不同層級的模型可塑性,影響模型吸收新領域知識的效率。最終產品檢查點經過廣泛的指示遵循一致性和安全性訓練,可將其最佳化以供一般對話使用,但可抵禦學習新的領域特定模式。換句話說,它已透過訓練後強化。相反地,較舊的檢查點會保留模型的預先訓練特性,並且尚未嚴重轉向特定行為,使它們更具可塑性且接受網域適應性。
為了獲得最佳的訓練效率,提供了多個中繼檢查點。
有哪些檢查點可用?
新版本 1.0
Amazon Nova 1.0 系列有三個模型 (Micro、Lite、Pro),每個模型都有三個檢查點可用。
-
PRE-TRAINED - 【
nova-<micro/lite/pro>/pretraining-text-partial】:這是 Amazon Nova 預先訓練的持續學習率階段之後的檢查點,其中模型在數兆個文字字符上進行訓練。 -
MID-TRAINED - 【
nova-<micro/lite/pro>/pretraining-text-full】:這是在 Amazon Nova 預先訓練的所有階段以及使用數兆個文字字符的中階訓練完成後,純文字檢查點。如果模型特別不應看到任何多模態資料,請使用這些項目。 -
MID-TRAINED - 【
nova-<lite/pro>/pretraining-mm-full】:這是在處理完 Amazon Nova 預先訓練和中期訓練的所有階段之後的檢查點,包括具有數兆個字符的多模態資料。 -
POST-TRAINED - 【
nova-<micro/lite/pro>/prod】:這是模型完全對齊的最終檢查點,已通過所有訓練前和訓練後步驟。
新版本 2.0
有三個 Amazon Nova Lite 2.0 檢查點。
-
PRE-TRAINED - 【
nova-lite-2/pretraining-text-RD】:這是 Amazon Nova 預先訓練的持續學習率和漸進階段之後的檢查點,其中模型在數兆個字符上進行訓練。 -
MID-TRAINED - 【
nova-lite-2/pretraining-text-CE】:此檢查點允許以比預先訓練更保守的學習速率引入中繼量的非結構化資料,吸收特定領域的知識,同時避免災難性忘記。 -
POST-TRAINED - 【
nova-lite-2/prod】:這是模型完全對齊的最終檢查點,已通過所有相關和訓練後步驟。
下表詳細說明訓練前和中訓練的不同條件。
資料類型 |
執行 |
使用檢查點 |
|---|---|---|
大規模的非結構化原始網域資料 (文件、日誌、文章、程式碼等) |
持續預先訓練 |
預先訓練 |
大規模的非結構化原始網域資料 (文件、日誌、文章、程式碼等) |
中階訓練 |
預先訓練 |
非結構化原始資料的較小磁碟區。結構化推理追蹤/CoT 資料 |
中階訓練 |
中階訓練 |
結構化示範 (高品質輸入輸出對、策劃的任務指示、多迴轉對話) |
完整微調 |
中階訓練 |
結構化示範 (高品質輸入輸出對、策劃的任務指示、多迴轉對話) |
參數高效率微調 |
訓練後 |
要使用哪個檢查點?
部分預先訓練的純文字和完全預先訓練的純文字檢查點通常會收斂得更快,並且需要較少的訓練步驟才能進行網域調整。不過,他們沒有指令調校,需要經過訓練後步驟,才能執行有用的任務並遵循指示。GA 檢查點可能需要更多步驟來調整,但為小規模實驗提供更安全的起點,即使經過 CPT 訓練,也會在訓練功能後維持部分檢查點。
一般而言,對於大型訓練資料集 (>10B 權杖),從僅部分預先訓練的文字或僅完全預先訓練的文字檢查點開始,以獲得更有效率且穩定的訓練,因為模型的知識庫將會大幅修改。對於小型資料集 (<10B 權杖),請使用 GA 檢查點來保留指示遵循功能,同時適應網域。
如何使用 1.0 或 2.0 模型的資料混合?
使用新的網域資料執行 CPT 時,將新資料與先前在模型訓練前階段使用的一些資料混合使用會非常有益。將舊資料與新網域資料混合可解決兩個問題:
-
忘記控制:保留模型的現有技能和知識,以防止災難性忘記。如果沒有資料混合,僅在窄域資料上進行訓練會導致模型覆寫一般功能。例如,僅根據法律文件訓練的模型可能會失去其編寫程式碼或執行數學的能力。混合一般網域資料集可保留這些一般技能,同時取得新網域。
-
最佳化穩定性:透過錨定模型的內部表示來維持訓練穩定性。在 CPT 期間,修改模型學習到的功能,資料混合提供來自各種來源的漸層,可順暢地引導此適應。如果沒有,在窄分佈上進行訓練可能會導致梯度不穩定,其中模型的表示式移動太大,導致訓練差異、損失尖峰或現有功能摺疊。這是一個穩定性-持久性權衡:模型應該足夠整形,才能學習新的領域知識,但足夠穩定,不會破壞它已經知道的內容。
新 CPT 資料混合功能
存取 Amazon Nova 預先訓練資料和檢查點是 Amazon Nova CPT 自訂的核心產品之一。Amazon Nova CPT 自訂可讓您輕鬆地將網域資料與 Amazon Nova 的訓練前 corpus 混合。此外,可以變更特定 Amazon Nova 資料類別 (例如程式碼、數學、推理等) 的取樣率,以及其控制成補充網域資料的比例。這允許強化與使用案例一致的功能,同時將模型調整為特定網域。
尋找最佳混合比率
Amazon Nova 資料與網域資料的最佳比率取決於資料集的網域、複雜性、大小、品質,以及維護一般功能的重要性。必須透過實驗探索此比率。決定要混合多少 Amazon Nova 資料的實驗架構如下。
選取代表性的網域資料子集 (例如 5B 字符),並在所有實驗執行中保持此常數。
執行小規模 CPT 實驗只會改變混合於下列項目的 Amazon Nova 資料量:
-
不混合:100% 網域 → 僅限 5B 網域 (總計 5B)
-
輕度混合:90% 網域 → 5B 網域 + ~0.56B Amazon Nova (總計 ~5.56B)
-
中等混合:70% 網域 → 5B 網域 + ~2.14B Amazon Nova (總計 ~7.14B)
-
重度混合:50% 網域 → 5B 網域 + 5B Amazon Nova (總計 10B)
在網域和一般網域基準中評估 上的每個檢查點。也請在任何訓練之前評估起始檢查點 (Amazon Nova 檢查點)。
-
客戶網域效能在執行期間是否大致保持不變? 通常應該,因為每次執行都會看到相同數量的網域字符。如果網域效能隨著更多混合而改善,Amazon Nova 資料會提供有用的正規化。
-
隨著混合增加,一般基準分數是否會改善?
-
預期的行為是,隨著新增更多 Amazon Nova 資料,一般功能應該會單調改善。
-
測量多個一般基準:MMLU (一般知識)、HumanEval (編碼)、GSM8K (數學) 或感興趣的特定基準。
-
-
選取維持網域效能的混合比率,同時為使用案例提供可接受的一般功能。將更多資料混合納入額外的訓練成本。
找出最佳混合比率後,請使用具有所選混合比率的完整網域資料集來執行完整規模的 CPT。
限制
目前的 CPT 僅支援文字資料,不支援任何客戶多模態資料集。