Vorbereiten der Trainingsdatensätze für die Destillation - Amazon Bedrock

Vorbereiten der Trainingsdatensätze für die Destillation

Bevor Sie mit einer Modellanpassung beginnen können, müssen Sie mindestens einen Trainingsdatensatz vorbereiten. Um Eingabedatensätze für ein benutzerdefiniertes Modell vorzubereiten, erstellen Sie .jsonl-Dateien, von denen jede Zeile ein JSON-Objekt ist, das einem Datensatz entspricht. Die von Ihnen erstellten Dateien müssen dem Format der Modelldestillation und dem ausgewählten Modell entsprechen. Zudem ist es erforderlich, dass die darin enthaltenen Datensätze die Größenanforderungen erfüllen.

Geben Sie die Eingabedaten als Prompts ein. Amazon Bedrock verwendet die Eingabedaten, um Antworten aus dem Lehrermodell zu generieren, und nutzt die generierten Antworten dann zur Feinabstimmung des Schülermodells. Weitere Informationen zu den Eingaben, die Amazon Bedrock verwendet, und zur Auswahl der besten Option für Ihren Anwendungsfall finden Sie unter So funktioniert die Amazon-Bedrock-Modelldestillation. Es gibt mehrere Möglichkeiten für die Vorbereitung eines Eingabedatensatzes.

Anmerkung

Amazon Nova-Modelle haben unterschiedliche Anforderungen an die Destillation. Weitere Informationen finden Sie unter Destillieren von Amazon Nova-Modellen.

Unterstützte Modalitäten für die Destillation

Die unter Unterstützte Modelle und Regionen für die Amazon-Bedrock-Modelldestillation aufgeführten Modelle unterstützen nur die Text-zu-Text-Modalität.

Optimieren von Eingabe-Prompts für die Generierung synthetischer Daten

Während der Modelldestillation generiert Amazon Bedrock einen synthetischen Datensatz, anhand dessen das Schülermodell an den spezifischen Anwendungsfall angepasst wird. Weitere Informationen finden Sie unter So funktioniert die Amazon-Bedrock-Modelldestillation.

Sie können den Generierungsprozess von synthetischen Daten optimieren, indem Sie die Eingabe-Prompts für den gewünschten Anwendungsfall formatieren. Wenn der Anwendungsfall des destillierten Modells beispielsweise Retrieval Augmented Generation (RAG) ist, formatieren Sie die Eingabe-Prompts anders, als wenn Anwendungsfälle für Agenten der Schwerpunkt des Modells sein sollen.

Im Folgenden finden Sie Beispiele dafür, wie Sie Eingabe-Prompts für RAG- oder Agentenanwendungsfälle formatieren können.

RAG prompt example
{ "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "You are a financial analyst charged with answering questions about 10K and 10Q SEC filings. Given the context below, answer the following question." } ], "messages": [ { "role": "user", "content": [ { "text": "<context>\nDocument 1: Multiple legal actions have been filed against us as a result of the October 29, 2018 accident of Lion Air Flight 610 and the March 10, 2019 accident of Ethiopian Airlines Flight 302.\n</context>\n\n<question>Has Boeing reported any materially important ongoing legal battles from FY2022?</question>" } ] } ] }
Agent prompt example
{ "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": 'You are an expert in composing functions. You are given a question and a set of possible functions. Based on the question, you will need to make one or more function/tool calls to achieve the purpose. Here is a list of functions in JSON format that you can invoke. [ { "name": "lookup_weather", "description: "Lookup weather to a specific location", "parameters": { "type": "dict", "required": [ "city" ], "properties": { "location": { "type": "string", }, "date": { "type": "string", } } } } ]' } ], "messages": [ { "role": "user", "content": [ { "text": "What's the weather tomorrow?" } ] }, { "role": "assistant", "content": [ { "text": "[lookup_weather(location=\"san francisco\", date=\"tomorrow\")]" } ] } ] }