Vorbereiten von Datensätzen für fortgesetztes Vortraining
Um ein fortgesetztes Vortraining für ein Text-zu-Text-Modell durchzuführen, bereiten Sie einen Trainings- und optional einen Validierungsdatensatz vor. Da das fortgesetzte Vortraining unbeschriftete Daten beinhaltet, ist jede JSON-Zeile eine Stichprobe, die nur ein input-Feld enthält. Verwenden Sie 6 Zeichen pro Token als Näherungswert für die Anzahl der Token. Das Format lautet wie folgt.
{"input": "<input text>"} {"input": "<input text>"} {"input": "<input text>"}
Das Folgende ist ein Beispielelement, das in den Trainingsdaten enthalten sein könnte.
{"input": "AWS stands for Amazon Web Services"}