Preparazione dei set di dati per il pre-addestramento continuo
Per effettuare pre-addestramento continuo su un modello text-to-text, prepara un set di dati di addestramento e convalida opzionale. Poiché la formazione continua prevede dati non etichettati, ogni riga JSON è un esempio contenente solo un campo input. Usa 6 caratteri per token come approssimazione del numero di token. Il formato è il seguente:
{"input": "<input text>"} {"input": "<input text>"} {"input": "<input text>"}
Di seguito è riportato un esempio di elemento che potrebbe essere presente nei dati di addestramento.
{"input": "AWS stands for Amazon Web Services"}