Grands modèles de langage pris en charge pour le peaufinage - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Grands modèles de langage pris en charge pour le peaufinage

À l’aide de l’API Autopilot, les utilisateurs peuvent optimiser les grands modèles de language (LLM) alimentés par Amazon SageMaker JumpStart.

Note

Pour le peaufinage des modèles qui nécessitent l’acceptation d’un contrat de licence d’utilisateur final, vous devez déclarer explicitement l’acceptation du CLUF lors de ma création de votre tâche AutoML. Notez qu’après peaufinage d’un modèle pré-entraîné, les poids du modèle d’origine sont modifiés. Vous n’avez donc pas besoin d’accepter un CLUF ultérieurement lors du déploiement du modèle peaufiné.

Pour en savoir plus sur la façon d’accepter le CLUF lors de la création d’une tâche de peaufinage à l’aide de l’API AutoML, consultez Comment définir l’acceptation du CLUF lors du peaufinage d’un modèle à l’aide de l’API AutoML.

Vous pouvez trouver les informations complètes de chaque modèle en recherchant votre ID de modèle JumpStart dans le tableau des modèles suivant, puis en cliquant sur le lien dans la colonne Source. Ces informations peuvent inclure les langages pris en charge par le modèle, les biais qu’il peut présenter, les jeux de données utilisés pour le peaufinage, etc.

Le tableau suivant répertorie les modèles JumpStart pris en charge que vous pouvez optimiser à l’aide d’une tâche AutoML.

ID de modèle JumpStart BaseModelName dans la demande d’API Description
huggingface-textgeneration-dolly-v2-3b-bf16 Dolly3B

Dolly 3B est un grand modèle de langage à 2,8 milliards de paramètres, basé sur pythia-2.8b et conçu pour suivre des instructions. Il est formé à l’utilisation du jeu de données de peaufinage d’instructions/de réponses databricks-dolly-15k et peut effectuer des tâches comme le brainstorming, la classification, les questions et réponses, la génération de texte, l’extraction d’informations et le synthétisation.

huggingface-textgeneration-dolly-v2-7b-bf16 Dolly7B

Dolly 7B est un grand modèle de langage à 6,9 milliards de paramètres, basé sur pythia-6.9b et conçu pour suivre des instructions. Il est formé à l’utilisation du jeu de données de peaufinage d’instructions/de réponses databricks-dolly-15k et peut effectuer des tâches comme le brainstorming, la classification, les questions et réponses, la génération de texte, l’extraction d’informations et le synthétisation.

huggingface-textgeneration-dolly-v2-12b-bf16 Dolly12B

Dolly 12B est un grand modèle de langage à 12 milliards de paramètres, basé sur pythia-12b et conçu pour suivre des instructions. Il est formé à l’utilisation du jeu de données de peaufinage d’instructions/de réponses databricks-dolly-15k et peut effectuer des tâches comme le brainstorming, la classification, les questions et réponses, la génération de texte, l’extraction d’informations et le synthétisation.

huggingface-llm-falcon-7b-bf16 Falcon7B

Falcon 7B est un grand modèle de langage causal à 7 milliards de paramètres, entraîné sur 1 500 milliards de jetons et enrichi par des corpus sélectionnés. Falcon 7B est formé uniquement à partir de données en anglais et en français, et ne répond pas de manière appropriée aux autres langues. Le modèle ayant été entraîné sur de grandes quantités de données Web, il reprend les stéréotypes et les préjugés courants qu’on peut trouver en ligne.

huggingface-llm-falcon-7b-instruct-bf16 Falcon7BInstruct

Falcon 7B Instruct est un grand modèle de langage causal à 7 milliards de paramètres, construit sur Falcon 7B et peaufiné sur un mélange de 250 millions de jetons de jeux de données de chat/instruction. Falcon 7B Instruct est formé principalement à partir de données en anglais, et ne répond pas de manière appropriée aux autres langues. De plus, comme il est formé sur des corpus à grande échelle représentatifs du web, il véhicule les stéréotypes et les préjugés couramment rencontrés en ligne.

huggingface-llm-falcon-40b-bf16 Falcon40B

Falcon 40B est un grand modèle de langage causal à 40 milliards de paramètres, entraîné sur 1 000 milliards de jetons et enrichi par des corpus sélectionnés. Il est formé principalement en anglais, allemand, espagnol et français, avec des capacités limitées en italien, portugais, polonais, néerlandais, roumain, tchèque et suédois. Il ne répond pas de manière appropriée aux autres langues. De plus, comme il est formé sur des corpus à grande échelle représentatifs du web, il véhicule les stéréotypes et les préjugés couramment rencontrés en ligne.

huggingface-llm-falcon-40b-instruct-bf16 Falcon40BInstruct

Falcon40B Instruct est un grand modèle de langage causal à 40 milliards de paramètres, construit sur Falcon40B et peaufiné sur un mélange jeux de données Baize. Il est formé principalement à partir de données en anglais et en français, et ne répond pas de manière appropriée aux autres langues. De plus, comme il est formé sur des corpus à grande échelle représentatifs du web, il véhicule les stéréotypes et les préjugés couramment rencontrés en ligne.

huggingface-text2text-flan-t5-large FlanT5L

La famille de modèles Flan-T5 est un ensemble de grands modèles de langage peaufinés pour de multiples tâches et dont l’entraînement peut être poussé. Ces modèles sont parfaitement adaptés à des tâches telles que la traduction linguistique, la génération de texte, la complétion de phrases, la désambiguïsation du sens des mots, la synthétisation ou la réponse à des questions. Flan T5 L est un grand modèle de langage à 780 millions de paramètres, entraîné dans de nombreuses langues. Vous trouverez la liste des langues prises en charge par le modèle Flan T5 L dans les informations à votre disposition quand vous aurez effectué une recherche par numéro de modèle dans le tableau des modèles JumpStart.

huggingface-text2text-flan-t5-xl FlanT5XL

La famille de modèles Flan-T5 est un ensemble de grands modèles de langage peaufinés pour de multiples tâches et dont l’entraînement peut être poussé. Ces modèles sont parfaitement adaptés à des tâches telles que la traduction linguistique, la génération de texte, la complétion de phrases, la désambiguïsation du sens des mots, la synthétisation ou la réponse à des questions. Flan T5 XL est un grand modèle de langage à 3 milliards de paramètres, entraîné dans de nombreuses langues. Vous trouverez la liste des langues prises en charge par le modèle Flan T5 XL dans les informations à votre disposition quand vous aurez effectué une recherche par numéro de modèle dans le tableau des modèles JumpStart.

huggingface-text2text-flan-t5-xxll FlanT5XXL

La famille de modèles Flan-T5 est un ensemble de grands modèles de langage peaufinés pour de multiples tâches et dont l’entraînement peut être poussé. Ces modèles sont parfaitement adaptés à des tâches telles que la traduction linguistique, la génération de texte, la complétion de phrases, la désambiguïsation du sens des mots, la synthétisation ou la réponse à des questions. Le Flan T5 XXL est un modèle à 11 milliards de paramètres. Vous trouverez la liste des langues prises en charge par le modèle Flan T5 XXL dans les informations à votre disposition quand vous aurez effectué une recherche par numéro de modèle dans le tableau des modèles JumpStart.

meta-textgeneration-llama-2-7b Llama2-7B

Llama 2 est une collection de modèles de texte génératifs pré-entraînés et peaufinés, composés de 7 à 70 milliards de paramètres. Llama2-7B est le modèle à 7 milliards de paramètres destiné à être utilisé en anglais et qui peut être adapté à diverses tâches de génération de langage naturel.

meta-textgeneration-llama-2-7b-f Llama2-7BChat

Llama 2 est une collection de modèles de texte génératifs pré-entraînés et peaufinés, composés de 7 à 70 milliards de paramètres. Llama2-7B est le modèle de chat à 7 milliards de paramètres, optimisé pour les cas d’utilisation de dialogues.

meta-textgeneration-llama-2-13b Llama2-13B

Llama 2 est une collection de modèles de texte génératifs pré-entraînés et peaufinés, composés de 7 à 70 milliards de paramètres. Llama2-13B est le modèle à 13 milliards de paramètres destiné à être utilisé en anglais et qui peut être adapté à diverses tâches de génération de langage naturel.

meta-textgeneration-llama-2-13b-f Llama2-13BChat

Llama 2 est une collection de modèles de texte génératifs pré-entraînés et peaufinés, composés de 7 à 70 milliards de paramètres. Llama2-13B est le modèle de chat à 13 milliards de paramètres, optimisé pour les cas d’utilisation de dialogues.

huggingface-llm-mistral-7b Mistral7B

Mistral 7B bénéficie d’un code à 7 milliards de paramètres et est un modèle de génération de texte anglais à usage général. Il peut être utilisé dans divers cas d’utilisation, notamment pour la synthétisation de texte, la classification, la complétion de texte ou la complétion de code.

huggingface-llm-mistral-7b-instruct Mistral7BInstruct

Mistral 7B Instruct est la version peaufinée de Mistral 7B pour les cas d’utilisation conversationnels. Il a été spécialisé à l’aide de divers jeux de données de conversation en anglais accessibles au public.

huggingface-textgeneration1-mpt-7b-bf16 MPT7B

MPT 7B est un grand modèle de langage de type décodeur (transformeur) à 6,7 milliards de paramètres, pré-entraîné à partir de zéro sur 1 billion de jetons de code et de texte en anglais. Il est préparé pour gérer d’importantes longueurs de contexte.

huggingface-textgeneration1-mpt-7b-instruct-bf16 MPT7BInstruct

MPT 7B Instruct est un modèle destiné aux tâches d’exécution d’instructions courtes. Il est construit en peaufinant le modèle MPT 7B sur un jeu de données dérivé des jeux de données databricks-dolly-15k et Anthropic Helpful and Harmless (HH-RLHF).