選取超參數 - Amazon Nova

選取超參數

我們建議您從預設超參數開始,這些超參數是以我們對不同複雜度和資料大小的任務進行的評估為基礎。但是,在您評估效能時,可能需要根據您的使用案例來調整和最佳化特定超參數。

調整超參數的指引

下列一般指引可協助您判斷在微調模型時如何調整超參數。

  • 根據樣本大小調整 epoch:預設的 epoch 數字為 2,適用於大多數情況。一般而言,較大的資料集需要較小的 epoch 才能收斂,而較小的資料集則需要較大的訓練 epoch 才能收斂。我們建議您根據資料樣本大小來調整 epoch。

  • 提示詞結構:最佳化提示策略可以改善經微調的模型的效能。值得花時間最佳化現有模型上的提示詞範本,然後再使用它們進行微調。我們建議您遵守 Amazon Nova 所遵循的提示最佳實務,以達成最佳效能結果。

  • 增大有效 epoch:由於 Amazon Bedrock 自訂服務將 epoch 限制為 5,這可能會阻礙較小資料集,致使其訓練不足。因此,對於較小的樣本 (<1K),我們建議您複製資料,以增大「有效 epoch」。例如,如果將資料集重複 2 次,則訓練 5 個 epoch 實際上意味著對原始資料訓練 10 個 epoch。對於較大的樣本 (不超過 5k),我們建議使用 2 個 epoch,而對於大於 5k 的樣本,我們建議使用 1 個 epoch 以提高收斂速度。

  • 避免訓練小型樣本時使用較大暖機數字:在暖機期間,學習速率會逐漸增大至設定值。因此,您應該避免在訓練小型樣本時使用較大的暖機數字,因為在訓練過程中,您的學習速率可能永遠不會達到設定值。我們建議設定暖機步驟,將 Amazon Nova Micro 的資料集大小除以 640、Amazon Nova Lite 的資料集大小除以 160,Amazon Nova Pro 的資料集大小除以 320,並將結果數字四捨五入。

  • 訓練較小模型時使用較大學習速率:由於後端使用的有效批次大小,Amazon Nova Micro 可能會受益於較大的學習速率。

  • 品質優先於數量:訓練資料的品質比數量更重要。從使用小型高品質資料集進行初始微調和效能評估開始,然後根據結果進行迭代和擴展。

  • 資料精簡:對於某些使用案例,借由 Amazon Nova 模型清理和改善訓練資料可能會有助益。然後可以使用此精簡資料來有效微調較小的模型。

  • 多樣化和擴增:您可以透過增加自訂資料集中的變化和多樣性來改善模型效能。您的微調資料和評估資料應與模型將看到的實際流量分佈相一致。

  • 散發:Amazon Nova Lite 和 Amazon Nova Pro 可用於產生訓練資料,對 Amazon Nova Micro 模型進行微調。如果較大的模型在目標任務中已經具備較高能力,則此方法非常有效。

何時進行蒸餾或微調?

我們建議您在下列情況下使用蒸餾

  • 您沒有已標記的資料,並且系列中的較大模型 (也稱為「教師模型」) 在目標任務上具有較高能力。

  • 對目標任務而言,較大模型優於較小模型,但您需要具有較大模型準確度之較小模型的延遲和成本設定檔。

我們建議您在下列情況下使用自訂微調

  • 即使在較大模型上也不會看到良好的效能,而且模型中存在智慧差距。

  • 您的使用案例屬於非常窄的領域且不夠普遍,模型無從了解。