Formato e requisiti dei dati di formazione API di file Caratteristiche dei dati di allenamento efficaci Proprietà aggiuntive

Preparare i dati per modelli a peso aperto

Quando ottimizzi i modelli a peso aperto con la regolazione di precisione dei rinforzi utilizzando le API, fornisci i dati di addestramento inserendo i tuoi OpenAI-compatible prompt in formato JSONL allo scopo. fine-tune

Formato e requisiti dei dati di formazione

I dati di formazione devono seguire il formato di completamento delle chat OpenAI con 100-20.000 esempi. Ogni esempio di formazione contiene:

messages: In questo campo, includi il ruolo dell'utente, del sistema o dell'assistente contenente il prompt di input fornito al modello.
reference_answer: In questo campo, deve contenere l'output previsto o i criteri di valutazione utilizzati dalla funzione di ricompensa per assegnare un punteggio alla risposta del modello. Non si limita agli output strutturati, ma può contenere qualsiasi formato che aiuti la funzione di ricompensa a valutare la qualità.
[Facoltativo] È possibile aggiungere campi utilizzati da grader Lambda per la valutazione.

Requisiti:

Formato JSONL con istruzioni nel formato di completamento della chat OpenAI (un prompt per riga)
Lo scopo deve essere impostato su fine-tune
Un minimo di 100 record nel set di dati di addestramento
Amazon Bedrock convalida automaticamente il formato del set di dati di addestramento

API di file

È possibile utilizzare OpenAI-compatible files api per caricare i dati di allenamento per lavori di ottimizzazione. I file vengono archiviati in modo sicuro in Amazon Bedrock e vengono utilizzati per creare lavori di ottimizzazione. Per informazioni complete sull'API, consulta la documentazione di Files. OpenAI

Per caricare un file di allenamento, scegli la scheda corrispondente al metodo che preferisci, quindi segui i passaggi:

Per recuperare i dettagli su un file specifico, scegli la scheda corrispondente al metodo che preferisci, quindi segui i passaggi:

Per elencare i file caricati, scegli la scheda corrispondente al metodo che preferisci, quindi segui i passaggi:

Per eliminare un file, scegli la scheda corrispondente al metodo preferito, quindi segui i passaggi:

Caratteristiche dei dati di allenamento efficaci

Dati di addestramento RFT efficaci richiedono tre caratteristiche chiave:

Chiarezza e coerenza: utilizza istruzioni chiare e inequivocabili con una formattazione coerente. Evita etichette contraddittorie, istruzioni ambigue o risposte di riferimento contrastanti che fuorviano la formazione.
Diversità: includi diversi formati di input, casi limite e livelli di difficoltà che riflettono i modelli di utilizzo della produzione in diversi tipi di utenti e scenari.
Funzioni di ricompensa efficienti: progetta funzioni che vengano eseguite rapidamente (secondi, non minuti), parallelizzino e restituiscano AWS Lambda punteggi costanti per una formazione conveniente.

Proprietà aggiuntive

Il formato di dati RFT supporta campi personalizzati oltre ai requisiti di base dello schema (e). messages reference_answer Questa flessibilità consente di aggiungere tutti i dati aggiuntivi necessari alla funzione di ricompensa per una corretta valutazione.

Nota

Non è necessario configurarlo nella ricetta. Il formato dei dati supporta intrinsecamente campi aggiuntivi. Basta includerli nei dati di allenamento JSON e verranno passati alla funzione di ricompensa sul campo. metadata

Proprietà aggiuntive comuni

task_id— Identificatore univoco per il tracciamento
difficulty_level— Indicatore di complessità del problema
domain— Area o categoria tematica
expected_reasoning_steps— Numero di passaggi della soluzione

Questi campi aggiuntivi vengono trasferiti alla funzione di ricompensa durante la valutazione, abilitando una sofisticata logica di punteggio personalizzata in base al caso d'uso specifico.

Esempi con proprietà aggiuntive

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Accesso e sicurezza

Impostazione delle funzioni di ricompensa