本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 Amazon SageMaker Smart Sifting 訓練期間的資料精簡
SageMaker Smart Sifting 是 SageMaker Training 的一項功能,有助於提高您訓練資料集的效率,並減少總訓練時間和成本。
大型語言模型 (LLM) 或視覺轉換器模型等現代深度學習模型通常需要大量資料集才能達到一定程度的準確性。例如,LLM 通常需要數兆個字符或 PB 的資料才能收斂。不斷增加的訓練資料集規模和最新模型的大小,都會增加模型訓練的運算時間和成本。
資料集中的範例永遠不會在模型訓練期間對學習過程有同等貢獻。在訓練期間佈建的運算資源中,有很大一部分可能花費在處理簡單的範例,這些範例對模型的整體準確性沒有實質貢獻。理想情況下,訓練資料集只會包含實際能改善模型收斂的範例。篩選掉較沒幫助的資料可以減少訓練時間和運算成本。不過,要找出較沒幫助的資料時,可能面臨挑戰和風險。在訓練之前,很難知道哪些範例較沒幫助,如果排除掉錯誤的範例或太多範例,模型準確性可能會受到影響。
使用 Amazon SageMaker AI 以智慧方式篩選資料將有助於提高資料效率,進而減少訓練時間和成本。SageMaker Smart Sifting 演算法會在訓練任務的資料載入階段評估每個資料的遺失值,並排除對模型而言資訊量較低的範例。使用精簡的資料進行訓練,避免向前和向後傳遞無改善功用的資料,就可以減少訓練模型的總時間和成本。因此,模型的準確性受到的影響就會很小或沒有影響。
您可以透過 SageMaker 訓練深度學習容器 (DLC) 取得 SageMaker Smart Sifting,並透過 PyTorch DataLoader 支援 PyTorch 工作負載。如果要實作 SageMaker Smart Sifting,只需要變更幾行程式碼,而且不需要變更現有的訓練或資料處理工作流程。