Preparare i dati per la distillazione dei modelli di comprensione
Per prima cosa, segui le Best practice di prompting per la comprensione del testo e ottimizza il prompt di input con Amazon Nova Premier e Amazon Nova Pro per assicurarti che sia ottimizzato per ottenere i migliori risultati dal modello insegnante.
Quando prepari il set di dati di input per un processo di distillazione utilizzando i tuoi prompt, segui queste raccomandazioni:
-
Se sono disponibili solo dati di prompt non etichettati, integrali con un piccolo numero (~10) di dati etichettati e curati di coppie di prompt e risposta di alta qualità per aiutare il modello ad apprendere meglio. Se invii un numero limitato di esempi rappresentativi di alta qualità, puoi creare un modello personalizzato che superi le prestazioni del modello insegnante.
-
Quando i dati etichettate delle coppie di prompt e risposta sono disponibili ma possono essere migliorati, includi le risposte nei dati inviati.
-
Quando sono disponibili dati di coppie di prompt e risposta ma le etichette sono di bassa qualità e l’addestramento è più adatto a essere in linea direttamente con il modello insegnante, rimuovi tutte le risposte prima di inviare i dati.
Esempi di formati di set di dati
I seguenti prompt sono esempi di come puoi fornire prompt etichettati e non etichettati per la distillazione di modelli.
Distillazione tramite prompt senza etichette
{ "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "A chat between a curious User and an artificial intelligence Bot. The Bot gives helpful, detailed, and polite answers to the User's questions." } ], "messages": [ { "role": "user", "content": [ { "text": "Why is the sky blue?" } ] } ] }
Distillazione tramite prompt con etichette
{ "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "A chat between a curious User and an artificial intelligence Bot. The Bot gives helpful, detailed, and polite answers to the User's questions." } ], "messages": [ { "role": "user", "content": [ { "text": "Why is the sky blue?" } ] }, { "role": "assistant", "content": [ { "text": "The sky is blue because molecules in the air scatter blue light from the Sun more than other colors." } ] } ] }
Vincoli dei set di dati
Quando esegui la distillazione di modelli, devi rispettare un numero massimo e un numero minimo di prompt o coppie di prompt e risposta.
Elemento |
Minimo |
Massimo |
|---|---|---|
Prompt |
100 |
15.000 |
Coppie di prompt e risposta |
100 |
15.000 |