Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Préparation de vos jeux de données d’entraînement pour un peaufinage et un pré-entraînement continu
Pour préparer des jeux de données d’entraînement et de validation pour votre modèle personnalisé, vous créez des fichiers .jsonl dans lesquels chaque ligne est un objet JSON correspondant à un enregistrement. Avant de commencer une tâche de personnalisation d’un modèle, vous devez au minimum préparer un jeu de données d’entraînement. Les fichiers que vous créez doivent respecter le format de la méthode de personnalisation et du modèle que vous avez choisis. Les enregistrements qu’ils contiennent doivent être conformes aux exigences de taille en fonction de votre modèle.
Pour plus d’informations sur les exigences relatives aux modèles, consultez Exigences de modèles pour les jeux de données d’entraînement et de validation. Pour connaître les quotas par défaut qui s’appliquent aux jeux de données d’entraînement et de validation utilisés pour personnaliser différents modèles, consultez les quotas Somme des enregistrements d’entraînement et de validation dans les points de terminaison et quotas Amazon Bedrock dans Références générales AWS.
La prise en charge d’un jeu de données de validation et le format de vos jeux de données d’entraînement et de validation dépendent des facteurs suivants.
-
Type de tâche de personnalisation de peaufinage (peaufinage ou pré-entraînement continu).
-
Modalités d’entrée et de sortie des données.
Pour plus d’informations sur le peaufinage des modèles Amazon Nova, consultez Peaufinage des modèles Amazon Nova.
Rubriques
Modalités prises en charge pour le peaufinage et le pré-entraînement continu
Exigences de modèles pour les jeux de données d’entraînement et de validation
Préparation des données pour optimiser les modèles texte-texte
Préparation des données pour optimiser les modèles de traitement d’image et de texte
Préparation des données pour optimiser la génération d’images et les modèles de vectorisation
Préparation de jeux de données pour un pré-entraînement continu
Modalités prises en charge pour le peaufinage et le pré-entraînement continu
Les sections suivantes décrivent les différentes fonctionnalités de peaufinage et de pré-entraînement prises en charge par chaque modèle, organisées selon leurs modalités d’entrée et de sortie. Pour plus d’informations sur le peaufinage des modèles Amazon Nova, consultez Peaufinage des modèles Amazon Nova.
Modèles texte à texte
Les modèles texte à texte peuvent être optimisés pour diverses tâches basées sur le texte, y compris les applications conversationnelles et non conversationnelles. Pour plus d’informations sur la préparation des données afin d’optimiser les modèles texte à texte, consultez Préparation des données pour optimiser les modèles texte-texte.
Les modèles non conversationnels suivants sont optimisés pour des tâches telles que la synthétisation, la traduction et la réponse aux questions :
Amazon Titan Text G1 - Express
Amazon Titan Text G1 - Lite
Amazon Titan Text Premier
Cohere Command
Cohere Command Light
Meta Llama 3.1 8B Instruct
Meta Llama 3.1 70B Instruct
Les modèles conversationnels suivants sont conçus pour les interactions à simples ou complexes. Si un modèle utilise l’API Converse, votre jeu de données de peaufinage doit suivre le format de message de l’API Converse et inclure les messages du système, de l’utilisateur et de l’assistant. Pour obtenir des exemples, consultez Préparation des données pour optimiser les modèles texte-texte. Pour plus d’informations sur les opérations d’API Converse, consultez Mener une conversation avec les opérations d’API Converse.
Anthropic Claude 3 Haiku
Meta Llama 3.2 1B Instruct (format de l’API Converse)
Meta Llama 3.2 3B Instruct (format de l’API Converse)
Meta Llama 3.2 11B Instruct Vision (format de l’API Converse)
Meta Llama 3.2 90B Instruct Vision (format de l’API Converse)
Meta Llama 3.3 70B Vision Instruct (format de l’API Converse)
Modèles image de texte à texte et texte à image
Les modèles suivants permettent un peaufinage pour la génération d’images et le traitement des images de texte. Ces modèles traitent ou génèrent des images sur la base d’entrées textuelles, ou génèrent du texte sur la base d’entrées textuelles et d’images. Pour plus d’informations sur la préparation des données afin d’optimiser les modèles image de texte à texte et texte à image, consultez Préparation des données pour optimiser les modèles de traitement d’image et de texte.
Amazon Titan Image Generator G1 V1
Meta Llama 3.2 11B Instruct Vision
Meta Llama 3.2 90B Instruct Vision
Meta Llama 3.3 70B Vision Instruct
Image à vectorisation
Les modèles suivants permettent d’optimiser des tâches telles que la classification et l’extraction. Ces modèles génèrent des représentations numériques (vectorisations) à partir des entrées d’image. Pour plus d’informations sur la préparation des données afin d’optimiser les modèles Image à vectorisation, consultez Préparation des données pour optimiser la génération d’images et les modèles de vectorisation.
Amazon Titan Multimodal Embeddings G1
Amazon Titan Image Generator G1 V1
Pré-entraînement continu : texte à texte
Les modèles suivants peuvent être utilisés pour un pré-entraînement continu. Ces modèles prennent en charge le pré-entraînement continu sur des données spécifiques à un domaine afin d’améliorer leurs connaissances de base. Pour plus d’informations sur la préparation des données pour le pré-entraînement continu pour les modèles Texte à texte, consultez Préparation de jeux de données pour un pré-entraînement continu.
Amazon Titan Text G1 - Express
Amazon Titan Text G1 - Lite