Preparare i set di dati di addestramento per la distillazione - Amazon Bedrock

Preparare i set di dati di addestramento per la distillazione

Prima di iniziare un processo di personalizzazione del modello, è necessario preparare almeno un set di dati di addestramento. Per preparare i set di dati di input per il modello personalizzato, creare file .jsonl, ogni riga dei quali è un oggetto JSON corrispondente a un record. I file creati devono essere conformi al formato per la distillazione di modelli e al modello scelto. I record in esso contenuti devono inoltre essere conformi ai requisiti di dimensione.

Fornire i dati di input come prompt. Amazon Bedrock utilizza i dati di input forniti per generare risposte dal modello insegnante e utilizza le risposte generate per eseguire il fine-tuning del modello studente. Per ulteriori informazioni sugli input utilizzati da Amazon Bedrock e per scegliere l’opzione più adatta al caso d’uso, consultare Come funziona Amazon Bedrock Model Distillation. Esistono un paio di opzioni per preparare il set di dati di input.

Nota

I modelli Amazon Nova hanno requisiti diversi per la distillazione. Per ulteriori informazioni, consulta Distillazione di modelli Amazon Nova.

Modalità di distillazione supportate

I modelli elencati in Modelli e Regioni supportati per Amazon Bedrock Model Distillation supportano solo la modalità da testo a testo.

Ottimizzare i prompt di input per la generazione di dati sintetici

Durante la distillazione di modelli, Amazon Bedrock genera un set di dati sintetico che utilizza per eseguire il fine-tuning del modello studente in base al caso d’uso specifico. Per ulteriori informazioni, consulta Come funziona Amazon Bedrock Model Distillation.

È possibile ottimizzare il processo di generazione di dati sintetici formattando i prompt di input per il caso d’uso desiderato. Ad esempio, se il caso d’uso del modello distillato è la generazione potenziata da recupero dati (RAG), è necessario formattare i prompt in modo diverso rispetto a quando si vuole che il modello si concentri sui casi d’uso degli agenti.

Di seguito sono riportati alcuni esempi di come è possibile formattare i prompt di input per la RAG o i casi d’uso degli agenti.

RAG prompt example
{ "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "You are a financial analyst charged with answering questions about 10K and 10Q SEC filings. Given the context below, answer the following question." } ], "messages": [ { "role": "user", "content": [ { "text": "<context>\nDocument 1: Multiple legal actions have been filed against us as a result of the October 29, 2018 accident of Lion Air Flight 610 and the March 10, 2019 accident of Ethiopian Airlines Flight 302.\n</context>\n\n<question>Has Boeing reported any materially important ongoing legal battles from FY2022?</question>" } ] } ] }
Agent prompt example
{ "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": 'You are an expert in composing functions. You are given a question and a set of possible functions. Based on the question, you will need to make one or more function/tool calls to achieve the purpose. Here is a list of functions in JSON format that you can invoke. [ { "name": "lookup_weather", "description: "Lookup weather to a specific location", "parameters": { "type": "dict", "required": [ "city" ], "properties": { "location": { "type": "string", }, "date": { "type": "string", } } } } ]' } ], "messages": [ { "role": "user", "content": [ { "text": "What's the weather tomorrow?" } ] }, { "role": "assistant", "content": [ { "text": "[lookup_weather(location=\"san francisco\", date=\"tomorrow\")]" } ] } ] }