Préparation de vos jeux de données d’entraînement pour un peaufinage et un pré-entraînement continu - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Préparation de vos jeux de données d’entraînement pour un peaufinage et un pré-entraînement continu

Pour préparer des jeux de données d’entraînement et de validation pour votre modèle personnalisé, vous créez des fichiers .jsonl dans lesquels chaque ligne est un objet JSON correspondant à un enregistrement. Avant de commencer une tâche de personnalisation d’un modèle, vous devez au minimum préparer un jeu de données d’entraînement. Les fichiers que vous créez doivent respecter le format de la méthode de personnalisation et du modèle que vous avez choisis. Les enregistrements qu’ils contiennent doivent être conformes aux exigences de taille en fonction de votre modèle.

Pour plus d’informations sur les exigences relatives aux modèles, consultez Exigences de modèles pour les jeux de données d’entraînement et de validation. Pour connaître les quotas par défaut qui s’appliquent aux jeux de données d’entraînement et de validation utilisés pour personnaliser différents modèles, consultez les quotas Somme des enregistrements d’entraînement et de validation dans les points de terminaison et quotas Amazon Bedrock dans Références générales AWS.

La prise en charge d’un jeu de données de validation et le format de vos jeux de données d’entraînement et de validation dépendent des facteurs suivants.

  • Type de tâche de personnalisation de peaufinage (peaufinage ou pré-entraînement continu).

  • Modalités d’entrée et de sortie des données.

Pour plus d’informations sur le peaufinage des modèles Amazon Nova, consultez Peaufinage des modèles Amazon Nova.

Modalités prises en charge pour le peaufinage et le pré-entraînement continu

Les sections suivantes décrivent les différentes fonctionnalités de peaufinage et de pré-entraînement prises en charge par chaque modèle, organisées selon leurs modalités d’entrée et de sortie. Pour plus d’informations sur le peaufinage des modèles Amazon Nova, consultez Peaufinage des modèles Amazon Nova.

Modèles texte à texte

Les modèles texte à texte peuvent être optimisés pour diverses tâches basées sur le texte, y compris les applications conversationnelles et non conversationnelles. Pour plus d’informations sur la préparation des données afin d’optimiser les modèles texte à texte, consultez Préparation des données pour optimiser les modèles texte-texte.

Les modèles non conversationnels suivants sont optimisés pour des tâches telles que la synthétisation, la traduction et la réponse aux questions :

  • Amazon Titan Text G1 - Express

  • Amazon Titan Text G1 - Lite

  • Amazon Titan Text Premier

  • Cohere Command

  • Cohere Command Light

  • Meta Llama 3.1 8B Instruct

  • Meta Llama 3.1 70B Instruct

Les modèles conversationnels suivants sont conçus pour les interactions à simples ou complexes. Si un modèle utilise l’API Converse, votre jeu de données de peaufinage doit suivre le format de message de l’API Converse et inclure les messages du système, de l’utilisateur et de l’assistant. Pour obtenir des exemples, consultez Préparation des données pour optimiser les modèles texte-texte. Pour plus d’informations sur les opérations d’API Converse, consultez Mener une conversation avec les opérations d’API Converse.

  • Anthropic Claude 3 Haiku

  • Meta Llama 3.2 1B Instruct (format de l’API Converse)

  • Meta Llama 3.2 3B Instruct (format de l’API Converse)

  • Meta Llama 3.2 11B Instruct Vision (format de l’API Converse)

  • Meta Llama 3.2 90B Instruct Vision (format de l’API Converse)

  • Meta Llama 3.3 70B Vision Instruct (format de l’API Converse)

Modèles image de texte à texte et texte à image

Les modèles suivants permettent un peaufinage pour la génération d’images et le traitement des images de texte. Ces modèles traitent ou génèrent des images sur la base d’entrées textuelles, ou génèrent du texte sur la base d’entrées textuelles et d’images. Pour plus d’informations sur la préparation des données afin d’optimiser les modèles image de texte à texte et texte à image, consultez Préparation des données pour optimiser les modèles de traitement d’image et de texte.

  • Amazon Titan Image Generator G1 V1

  • Meta Llama 3.2 11B Instruct Vision

  • Meta Llama 3.2 90B Instruct Vision

  • Meta Llama 3.3 70B Vision Instruct

Image à vectorisation

Les modèles suivants permettent d’optimiser des tâches telles que la classification et l’extraction. Ces modèles génèrent des représentations numériques (vectorisations) à partir des entrées d’image. Pour plus d’informations sur la préparation des données afin d’optimiser les modèles Image à vectorisation, consultez Préparation des données pour optimiser la génération d’images et les modèles de vectorisation.

  • Amazon Titan Multimodal Embeddings G1

  • Amazon Titan Image Generator G1 V1

Pré-entraînement continu : texte à texte

Les modèles suivants peuvent être utilisés pour un pré-entraînement continu. Ces modèles prennent en charge le pré-entraînement continu sur des données spécifiques à un domaine afin d’améliorer leurs connaissances de base. Pour plus d’informations sur la préparation des données pour le pré-entraînement continu pour les modèles Texte à texte, consultez Préparation de jeux de données pour un pré-entraînement continu.

  • Amazon Titan Text G1 - Express

  • Amazon Titan Text G1 - Lite