Prepara i tuoi set di dati di addestramento per la distillazione - Amazon Bedrock

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Prepara i tuoi set di dati di addestramento per la distillazione

Prima di iniziare un lavoro di personalizzazione del modello, devi preparare almeno un set di dati di addestramento. Per preparare i set di dati di input per il modello personalizzato, create .jsonl dei file, ogni riga dei quali è un oggetto JSON corrispondente a un record. I file creati devono essere conformi al formato per la distillazione del modello e al modello scelto. I record in esso contenuti devono inoltre essere conformi ai requisiti di dimensione.

Fornisci i dati di input come richiesto. Amazon Bedrock utilizza i dati di input per generare risposte dal modello dell'insegnante e utilizza le risposte generate per perfezionare il modello dello studente. Per ulteriori informazioni sugli input utilizzati da Amazon Bedrock e per scegliere l'opzione più adatta al tuo caso d'uso, consulta. Come funziona Amazon Bedrock Model Distillation Esistono un paio di opzioni per preparare il set di dati di input.

Nota

Amazon Novai modelli hanno requisiti diversi per la distillazione. Per ulteriori informazioni, vedere Modelli di distillazione. Amazon Nova

Modalità supportate per la distillazione

I modelli elencati in precedenza Regioni e modelli supportati per Amazon Bedrock Model Distillation supportano solo la text-to-text modalità.

Ottimizza le richieste di input per la generazione di dati sintetici

Durante la distillazione del modello, Amazon Bedrock genera un set di dati sintetico che utilizza per ottimizzare il modello di studente in base al caso d'uso specifico. Per ulteriori informazioni, consulta Come funziona Amazon Bedrock Model Distillation.

Puoi ottimizzare il processo di generazione di dati sintetici formattando i prompt di input per il caso d'uso che desideri. Ad esempio, se il caso d'uso del modello distillato è la generazione aumentata di recupero (RAG), è necessario formattare i prompt in modo diverso rispetto a quando si desidera che il modello si concentri sui casi d'uso degli agenti.

Di seguito sono riportati alcuni esempi di come è possibile formattare i prompt di input per i casi d'uso di RAG o di agenti.

RAG prompt example
{ "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "You are a financial analyst charged with answering questions about 10K and 10Q SEC filings. Given the context below, answer the following question." } ], "messages": [ { "role": "user", "content": [ { "text": "<context>\nDocument 1: Multiple legal actions have been filed against us as a result of the October 29, 2018 accident of Lion Air Flight 610 and the March 10, 2019 accident of Ethiopian Airlines Flight 302.\n</context>\n\n<question>Has Boeing reported any materially important ongoing legal battles from FY2022?</question>" } ] } ] }
Agent prompt example
{ "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": 'You are an expert in composing functions. You are given a question and a set of possible functions. Based on the question, you will need to make one or more function/tool calls to achieve the purpose. Here is a list of functions in JSON format that you can invoke. [ { "name": "lookup_weather", "description: "Lookup weather to a specific location", "parameters": { "type": "dict", "required": [ "city" ], "properties": { "location": { "type": "string", }, "date": { "type": "string", } } } } ]' } ], "messages": [ { "role": "user", "content": [ { "text": "What's the weather tomorrow?" } ] }, { "role": "assistant", "content": [ { "text": "[lookup_weather(location=\"san francisco\", date=\"tomorrow\")]" } ] } ] }