準備資料集以繼續進行預先訓練
若要在文字對文字模型上執行持續的預先訓練,請準備訓練和選用的驗證資料集。由於持續預先訓練涉及未標記的資料,因此每個 JSON 行都是僅包含 input 欄位的範例。每個記號使用 6 個字元作為記號數量的近似值。格式如下所示。
{"input": "<input text>"} {"input": "<input text>"} {"input": "<input text>"}
以下是可能位於訓練資料中的範例項目。
{"input": "AWS stands for Amazon Web Services"}