SageMaker AI 訓練任務 - Amazon Nova

SageMaker AI 訓練任務

使用 Amazon SageMaker Training Jobs 自訂 Amazon Nova 模型遵循結構化工作流程,旨在簡化微調大型語言模型的複雜程序。此端至端工作流程包含模型訓練、評估和推論部署。如需詳細資訊,請參閱《Amazon SageMaker AI 開發人員指南》https://docs.aws.amazon.com/sagemaker/latest/dg/nova-model.html中的自訂 Amazon Nova 模型

透過 Amazon SageMaker AI,您可以微調現有的預先訓練基礎模型,例如 Amazon Nova,而無需從頭開始訓練您自己的模型。下列各節詳細說明使用 Amazon Nova 基礎模型時,SageMaker AI 中的微調選項。

全秩微調

全秩微調會修改所有基礎模型參數,以最佳化特定任務或領域的效能。這種全面的方法會更新整個模型架構,實現比轉接器型方法更深入的調適。如需更多詳細資訊,請參閱微調基礎模型

全秩微調的運作方式

在全秩微調期間,模型會透過使用訓練資料更新其所有參數來進行學習。此全秩微調程序:

  • 允許模型為您的領域發展專業知識。

  • 實現對模型的基礎表示法進行重大變更。

  • 與轉接器型方法相比,需要更多的運算資源,但可以實現更好的任務特定效能。

何時選擇全秩微調

我們建議在下列場景中使用全秩微調:

  • 當 LoRA PEFT 微調未達到所需的效能等級時。

  • 對於需要深度專業知識的專業領域 (例如醫療、法律或技術領域)。

  • 當您有適用於使用案例的大型高品質資料集時。

  • 當準確度需求超過運算成本考量時。

  • 對於需要明顯偏離基礎模型行為的應用程式。

低秩轉接器微調

若要增強基礎模型效能,最有效且最具成本效益的方法是透過低秩轉接器參數效率微調 (LoRA PEFT)。LoRA PEFT 的基礎原則是,只需要更新少量的額外權重,即可適應新的任務或領域。

LoRA PEFT 透過將低秩可訓練權重矩陣引入特定模型層,來有效率地微調基礎模型,從而減少可訓練參數的數量,同時維持模型品質。LoRA PEFT 適應器透過整合輕量型適應器層,來增強基底基礎模型,適應器層會在推論期間修改模型的權重,同時保持原始模型參數不變。此方法也視為最具成本效益的微調技術之一。如需詳細資訊,請參閱使用適應器推論元件微調模型

何時選擇 LoRA PEFT

在下列場景中,我們會建議使用 LoRA PEFT:

  • 一般而言,您應該優先於其他微調方法從 LoRA PEFT 開始,因為它是一種快速的訓練程序。

  • 在基礎模型的效能已令人滿意的情況下,LoRA PEFT 會有效。在這種情況下,LoRA PEFT 的目標是增強其跨多個相關任務的功能,例如文字摘要或語言翻譯。LoRA PEFT 的正規化屬性還有助於防止過度擬合,並降低模型「忘記」來源領域的風險。這可確保模型保持多功能性,且可適應各種應用程式。

  • 您可以使用 LoRA PEFT,以相對較小的資料集執行指令微調場景。LoRA PEFT 使用較小型、特定任務的資料集時,效能比使用更廣、更大的資料集時更佳。

  • 對於超過 Amazon Bedrock 自訂資料限制的大型標記資料集,您可以在 SageMaker AI 上使用 LoRA PEFT 來產生更好的結果。

  • 如果您已透過 Amazon Bedrock 微調達到良好的結果,SageMaker AI 上的 LoRA PEFT 可協助進一步最佳化模型超參數。

直接偏好最佳化

直接偏好最佳化 (DPO) 是基礎模型的有效微調方法,使用配對比較資料讓模型輸出與人類偏好保持一致。這種方法可根據關於哪些回應較理想的人類意見回饋,提供模型行為的直接最佳化。

為什麼 DPO 很重要

以大規模資料訓練的基礎模型經常會產生事實上可能正確但無法符合特定使用者需求、組織價值或安全需求的輸出。DPO 可讓您執行下列動作來解決此差距:

  • 針對所需的行為模式微調模型。

  • 減少不必要的輸出或有害的回應。

  • 使模型回應與品牌聲音和溝通指導方針保持一致。

  • 根據領域專家意見回饋改善回應品質。

DPO 的運作方式

DPO 使用配對範例,其中人工評估人員會指出偏好兩種可能回應中的哪一種。此模型會學習將產生偏好回應的可能性最大化,同時將不需要的回應減至最少。您可以使用下列任一技巧來實作 DPO:

  • 全秩 DPO:更新所有模型參數,以最佳化偏好的回應。

  • 以 LoRA 為基礎的 DPO:使用輕量型轉接器來學習偏好對齊,只需要較少的運算資源。

何時選擇 DPO

在下列場景中,我們會建議使用 DPO:

  • 針對需要與特定人類偏好一致的主觀輸出進行最佳化。

  • 調整模型的語氣、風格或內容特性,以符合所需的回應模式。

  • 根據使用者意見回饋和錯誤分析,對現有模型進行針對性的改善。

  • 在不同使用案例之間維持一致的輸出品質。

  • 透過偏好的回應模式實作安全防護機制。

  • 使用無獎勵強化學習進行訓練。

  • 僅使用偏好資料,而非分級或標記的資料。

  • 在細微的對齊任務中改善模型,例如幫助性、無害性或誠實性。

DPO 透過精心策劃的偏好資料集示範所需的輸出與不需要的輸出,有效地反覆精簡模型行為。此方法在支援全秩和基於 LoRA 的方法上具有彈性,可讓您根據您的運算資源和特定需求選擇最適合的實作。

蒸餾

模型蒸餾是一種將大型、進階模型中的知識轉移到較小、高效模型的方法。使用 Amazon Nova 模型時,較大的「教師」模型 (例如 Amazon Nova Pro 或 Amazon Nova Premier) 會將其功能傳遞給較小的「學生」模型 (例如 Amazon Nova Lite 或 Amazon Nova Micro)。這會建立一個能維持高效能同時使用較少資源的自訂模型。

如需如何使用 SageMaker AI 訓練任務完成此動作的資訊,請參閱 Amazon Nova 蒸餾