Préparation de vos jeux de données d’entraînement pour la distillation - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Préparation de vos jeux de données d’entraînement pour la distillation

Avant de commencer une tâche de personnalisation d’un modèle, vous devez au minimum préparer un jeu de données d’entraînement. Pour préparer les jeux de données d’entrée pour votre modèle personnalisé, vous créez des fichiers .jsonl dont chaque ligne est un objet JSON correspondant à un enregistrement. Les fichiers que vous créez doivent respecter le format de la distillation de modèles et du modèle que vous avez choisis. Les enregistrements qu’ils contiennent doivent également être conformes aux exigences de taille.

Fournissez les données d’entrée sous forme d’invite. Amazon Bedrock utilise les données d’entrée pour générer des réponses à partir du modèle enseignant, puis utilise les réponses générées pour optimiser le modèle étudiant. Pour plus d’informations sur les entrées utilisées par Amazon Bedrock et pour choisir l’option la mieux adaptée à votre cas d’utilisation, consultez Fonctionnement de la distillation de modèles Amazon Bedrock. Il existe plusieurs options pour préparer votre jeu de données d’entrée.

Note

Les Amazon Nova modèles ont des exigences différentes pour la distillation. Pour plus d’informations, consultez Distillation des modèles Amazon Nova.

Modalités prises en charge pour la distillation

Les modèles répertoriés dans Modèles et régions pris en charge pour la distillation de modèles Amazon Bedrock ne prennent en charge que la modalité texte-texte.

Optimisez vos invites d’entrée pour la génération de données synthétiques

Lors de la distillation de modèles, Amazon Bedrock génère un jeu de données synthétique qu’il utilise pour optimiser le modèle étudiant en fonction de votre cas d’utilisation spécifique. Pour plus d’informations, consultez Fonctionnement de la distillation de modèles Amazon Bedrock.

Vous pouvez optimiser le processus de génération de données synthétiques en formatant vos invites d’entrée en fonction du cas d’utilisation que vous souhaitez. Par exemple, si le cas d’utilisation de votre modèle distillé est la génération à enrichissement contextuel (RAG), vous devez formater vos invites différemment que si vous souhaitez que le modèle se concentre sur les cas d’utilisation des agents.

Vous trouverez ci-dessous des exemples de mise en forme de vos invites d’entrée pour les cas d’utilisation de RAG ou d’agent.

RAG prompt example
{ "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "You are a financial analyst charged with answering questions about 10K and 10Q SEC filings. Given the context below, answer the following question." } ], "messages": [ { "role": "user", "content": [ { "text": "<context>\nDocument 1: Multiple legal actions have been filed against us as a result of the October 29, 2018 accident of Lion Air Flight 610 and the March 10, 2019 accident of Ethiopian Airlines Flight 302.\n</context>\n\n<question>Has Boeing reported any materially important ongoing legal battles from FY2022?</question>" } ] } ] }
Agent prompt example
{ "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": 'You are an expert in composing functions. You are given a question and a set of possible functions. Based on the question, you will need to make one or more function/tool calls to achieve the purpose. Here is a list of functions in JSON format that you can invoke. [ { "name": "lookup_weather", "description: "Lookup weather to a specific location", "parameters": { "type": "dict", "required": [ "city" ], "properties": { "location": { "type": "string", }, "date": { "type": "string", } } } } ]' } ], "messages": [ { "role": "user", "content": [ { "text": "What's the weather tomorrow?" } ] }, { "role": "assistant", "content": [ { "text": "[lookup_weather(location=\"san francisco\", date=\"tomorrow\")]" } ] } ] }