Preparazione dei set di dati per il pre-addestramento continuo - Amazon Bedrock

Preparazione dei set di dati per il pre-addestramento continuo

Per effettuare pre-addestramento continuo su un modello text-to-text, prepara un set di dati di addestramento e convalida opzionale. Poiché la formazione continua prevede dati non etichettati, ogni riga JSON è un esempio contenente solo un campo input. Usa 6 caratteri per token come approssimazione del numero di token. Il formato è il seguente:

{"input": "<input text>"} {"input": "<input text>"} {"input": "<input text>"}

Di seguito è riportato un esempio di elemento che potrebbe essere presente nei dati di addestramento.

{"input": "AWS stands for Amazon Web Services"}