準備資料以蒸餾理解模型 - Amazon Nova

準備資料以蒸餾理解模型

首先,請遵循 文字理解提示最佳實務 並使用 Amazon Nova Premier 和 Amazon Nova Pro 調整輸入提示詞,確保提示詞經過最佳化,以最大化利用教師模型。

使用您自己的提示詞準備蒸餾任務的輸入資料集時,請遵循下列建議:

  • 當只有未標記的提示詞資料可用時,請補充少量 (約 10 個) 的精選高品質標記提示詞-回應配對資料,以協助模型更好地學習。如果您提交少量的高品質代表性範例,您可以建立超過教師模型效能的自訂模型。

  • 當有標記提示詞-回應配對資料可用,但有一些改進空間時,請在提交的資料中包含回應。

  • 當有標記提示詞-回應配對資料可用,但標籤品質不佳,且訓練更適合直接與教師模型保持一致時,請在提交資料之前移除所有回應。

資料集格式範例

下列提示詞提供了範例,說明如何提供標記和未標記的模型蒸餾提示詞。

使用沒有標籤的提示詞進行蒸餾

{ "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "A chat between a curious User and an artificial intelligence Bot. The Bot gives helpful, detailed, and polite answers to the User's questions." } ], "messages": [ { "role": "user", "content": [ { "text": "Why is the sky blue?" } ] } ] }

使用具有標籤的提示詞進行蒸餾

{ "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "A chat between a curious User and an artificial intelligence Bot. The Bot gives helpful, detailed, and polite answers to the User's questions." } ], "messages": [ { "role": "user", "content": [ { "text": "Why is the sky blue?" } ] }, { "role": "assistant", "content": [ { "text": "The sky is blue because molecules in the air scatter blue light from the Sun more than other colors." } ] } ] }

資料集限制條件

當您執行模型蒸餾時,必須提供的提示詞或提示詞-回應配對數量下限和上限如下。

項目

下限

上限

提示詞

100

15K

提示詞-回應配對

100

15K