Vorbereiten von Datensätzen für fortgesetztes Vortraining - Amazon Bedrock

Vorbereiten von Datensätzen für fortgesetztes Vortraining

Um ein fortgesetztes Vortraining für ein Text-zu-Text-Modell durchzuführen, bereiten Sie einen Trainings- und optional einen Validierungsdatensatz vor. Da das fortgesetzte Vortraining unbeschriftete Daten beinhaltet, ist jede JSON-Zeile eine Stichprobe, die nur ein input-Feld enthält. Verwenden Sie 6 Zeichen pro Token als Näherungswert für die Anzahl der Token. Das Format lautet wie folgt.

{"input": "<input text>"} {"input": "<input text>"} {"input": "<input text>"}

Das Folgende ist ein Beispielelement, das in den Trainingsdaten enthalten sein könnte.

{"input": "AWS stands for Amazon Web Services"}