Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Préparation de vos jeux de données d’entraînement pour la distillation
Avant de commencer une tâche de personnalisation d’un modèle, vous devez au minimum préparer un jeu de données d’entraînement. Pour préparer les jeux de données d’entrée pour votre modèle personnalisé, vous créez des fichiers .jsonl dont chaque ligne est un objet JSON correspondant à un enregistrement. Les fichiers que vous créez doivent respecter le format de la distillation de modèles et du modèle que vous avez choisis. Les enregistrements qu’ils contiennent doivent également être conformes aux exigences de taille.
Fournissez les données d’entrée sous forme d’invite. Amazon Bedrock utilise les données d’entrée pour générer des réponses à partir du modèle enseignant, puis utilise les réponses générées pour optimiser le modèle étudiant. Pour plus d’informations sur les entrées utilisées par Amazon Bedrock et pour choisir l’option la mieux adaptée à votre cas d’utilisation, consultez Fonctionnement de la distillation de modèles Amazon Bedrock. Il existe plusieurs options pour préparer votre jeu de données d’entrée.
Note
Les Amazon Nova modèles ont des exigences différentes pour la distillation. Pour plus d’informations, consultez Distillation des modèles Amazon Nova.
Rubriques
Modalités prises en charge pour la distillation
Les modèles répertoriés dans Modèles et régions pris en charge pour la distillation de modèles Amazon Bedrock ne prennent en charge que la modalité texte-texte.
Optimisez vos invites d’entrée pour la génération de données synthétiques
Lors de la distillation de modèles, Amazon Bedrock génère un jeu de données synthétique qu’il utilise pour optimiser le modèle étudiant en fonction de votre cas d’utilisation spécifique. Pour plus d’informations, consultez Fonctionnement de la distillation de modèles Amazon Bedrock.
Vous pouvez optimiser le processus de génération de données synthétiques en formatant vos invites d’entrée en fonction du cas d’utilisation que vous souhaitez. Par exemple, si le cas d’utilisation de votre modèle distillé est la génération à enrichissement contextuel (RAG), vous devez formater vos invites différemment que si vous souhaitez que le modèle se concentre sur les cas d’utilisation des agents.
Vous trouverez ci-dessous des exemples de mise en forme de vos invites d’entrée pour les cas d’utilisation de RAG ou d’agent.