Architectures prises en charge Importation d’une source de modèle à partir d’Amazon S3

Utilisation de l’importation de modèles personnalisés pour importer un modèle open source personnalisé dans Amazon Bedrock

Vous pouvez créer un modèle personnalisé dans Amazon Bedrock en utilisant la fonction d'importation de modèles personnalisés d'Amazon Bedrock pour importer des modèles de base que vous avez personnalisés dans d'autres environnements, tels qu'Amazon SageMaker AI. Par exemple, vous pouvez avoir un modèle que vous avez créé dans Amazon SageMaker AI qui possède des pondérations de modèle propriétaires. Vous pouvez désormais importer ce modèle dans Amazon Bedrock, puis utiliser les fonctionnalités Amazon Bedrock pour effectuer des appels d’inférence vers le modèle.

Vous pouvez utiliser un modèle que vous importez avec un débit à la demande. Utilisez les InvokeModelWithResponseStreamopérations InvokeModelor pour effectuer des appels d'inférence vers le modèle. Pour de plus amples informations, veuillez consulter Soumettez une seule invite avec InvokeModel.

L'importation de modèles personnalisés est prise en charge dans les régions suivantes :

eu-central-1
us-east-1
us-east-2
us-west-2

Note

Assurez-vous que votre importation et votre utilisation des modèles dans Amazon Bedrock sont conformes aux conditions ou aux licences applicables aux modèles.

Vous ne pouvez pas utiliser l’importation de modèles personnalisés avec les fonctionnalités Amazon Bedrock suivantes.

Inférence par lots
CloudFormation

Avec l’importation de modèles personnalisés, vous pouvez créer un modèle personnalisé qui prend en charge les modèles suivants.

Modèle affiné : vous pouvez personnaliser les poids du modèle à l'aide de données propriétaires, tout en conservant la configuration du modèle de base.
Adaptation : vous pouvez personnaliser le modèle en fonction de votre domaine pour les cas d’utilisation où il ne se généralise pas bien. L’adaptation par domaine modifie un modèle afin de le généraliser pour un domaine cible et de gérer les divergences entre les domaines, par exemple quand le secteur financier souhaite créer un modèle qui généralise bien les tarifications. Autre exemple : l’adaptation linguistique. Par exemple, vous pouvez personnaliser un modèle pour générer des réponses en portugais ou en tamoul. Le plus souvent, cela implique de modifier le vocabulaire du modèle que vous utilisez.
Pré-entraîné à partir de zéro : en plus de personnaliser les pondérations et le vocabulaire du modèle, vous pouvez également modifier ses paramètres de configuration tels que le nombre de têtes d’attention, les couches masquées ou la longueur du contexte.

Pour plus d’informations sur la tarification de l’importation de modèles personnalisés, sélectionnez l’onglet Importation de modèles personnalisés dans la section Modèles de tarification de la page Tarification d’Amazon Bedrock.

Rubriques

Architectures prises en charge

Le modèle que vous importer doit se trouver dans l’une des architectures suivantes.

Mistral : architecture basée sur un transformeur décodeur uniquement avec Sliding Window Attention (SWA) et des options pour Grouped Query Attention (GQA). Pour plus d’informations, consultez Mistral dans la documentation Hugging Face.
Mixtral : modèle de transformeur uniquement décodeur avec modèles Mixture of Experts (MoE) fragmentés. Pour plus d’informations, consultez Mixtral dans la documentation Hugging Face.
Flan : version améliorée de l’architecture T5, un modèle de transformeur basé sur un encodeur-décodeur. Pour plus d’informations, consultez Flan T5 dans la documentation Hugging Face.
Llama 2, Llama3, Llama3.1, Llama3.2, Llama 3.3 et Mllama : version améliorée de Llama avec Grouped Query Attention (GQA). Pour plus d’informations, consultez Llama 2, Llama 3, Llama 3.1, Llama 3.2, Llama 3.3 et Mllama dans la documentation Hugging Face.
GPTBigCode : version optimisée de GPT-2 avec action Multi-Query. Pour plus d'informations, consultez la section GPTBigCode dans la Hugging Face documentation.
Qwen2, Qwen2.5, Qwen2-VL, Qwen2.5-VL, Qwen3 : famille de LLM avec perception multimodale complète et codage de la vision à haute vitesse. Tout modèle utilisant les architectures Qwen2, Qwen2-VL et Qwen2.5-VL peut être importé. Pour l’architecture Qwen3, seuls Qwen3ForCausalLM et Qwen3MoeForCausalLM sont pris en charge. Converse n’est pas non plus compatible avec les modèles Qwen3. Pour plus d’informations, consultez Qwen2, Qwen2.5, Qwen2-VL, Qwen2.5-VL et Qwen3 dans la documentation Hugging Face.
GPT-OSS— Architecture basée sur GPT-OSS OpenAI. Amazon Bedrock prend en charge les modèles personnalisés basés sur 20B et 120B. GPT-OSSl'architecture du modèle n'est prise en charge que dans la région de l'est des États-Unis (Virginie du Nord).

Note

La taille des pondérations des modèles importés doit être inférieure à 100 Go pour les modèles multimodaux et à 200 Go pour les modèles de texte.
Les vectorisations positionnelles ou la longueur de contexte maximales prises en charge par le modèle doivent être inférieures à 128 Ko.
Amazon Bedrock prend en charge la version 4.51.3 du transformeur. Assurez-vous d’utiliser la version 4.51.3 du transformeur lorsque vous optimisez votre modèle.
L'importation de modèles personnalisés ne prend pas en charge l'intégration de modèles.

Importation d’une source de modèle à partir d’Amazon S3

Vous importez un modèle dans Amazon Bedrock en créant une tâche d’importation de modèle dans la console ou l’API Amazon Bedrock. Dans la tâche, vous pouvez spécifier l’URI Amazon S3 pour la source des fichiers du modèle. Pendant l’entraînement du modèle, la tâche d’importation détecte automatiquement l’architecture de votre modèle.

Vous devez fournir les fichiers du modèle au format de pondération Hugging Face. Vous pouvez créer les fichiers à l’aide de la bibliothèque de transformeurs Hugging Face. Pour créer les fichiers de modèle pour un modèle Llama, consultez convert_llama_weights_to_hf.py. Pour créer les fichiers pour un modèle Mistral AI, consultez convert_mistral_weights_to_hf.py.

Pour importer le modèle depuis Amazon S3, vous avez au minimum besoin des fichiers suivants créés par la bibliothèque de transformeurs Hugging Face.

.safetensor : pondérations du modèle au format Safetensor. Safetensors est un format créé par Hugging Face qui stocke les pondérations d’un modèle sous forme de tenseurs. Vous devez stocker les tenseurs de votre modèle dans un fichier portant l’extension .safetensors. Pour plus d’informations, consultez Safetensors. Pour plus d’informations sur la conversion des pondérations des modèles au format Safetensor, consultez Convert weights to safetensors.
config.json — Pour des exemples, voir LlamaConfiget. MistralConfig
Note
Amazon Bedrock remplace la valeur llama3 rope_scaling par les valeurs suivantes :
- original_max_position_embeddings=8192
- high_freq_factor=4
- low_freq_factor=1
- factor=8
tokenizer_config.json Pour un exemple, consultez. LlamaTokenizer
tokenizer.json
tokenizer.model

Créateurs de jeton pris en charge

L’importation de modèles personnalisés Amazon Bedrock prend en charge les créateurs de jetons suivants. Vous pouvez utiliser ceux-ci avec n’importe quel modèle.

T5Tokenizer
T5 TokenizerFast
LlamaTokenizer
LlamaTokenizerFast
CodeLlamaTokenizer
CodeLlamaTokenizerFast
GPT2Tokeniseur
GPT2TokenizerFast
GPTNeoXTokenizer
GPTNeoXTokenizerRapide
PreTrainedTokenizer
PreTrainedTokenizerFast
Qwen2Tokenizer
Qwen 2 TokenizerFast

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Importation de modèles personnalisés

Conditions préalables à l’importation d’un modèle