Référence des modèles pris en charge

Les tableaux suivants présentent les modèles pour lesquels l' SageMaker IA prend en charge l'optimisation par inférence, ainsi que les techniques d'optimisation prises en charge.

Modèles Llama pris en charge
Nom du modèle	Formats de données pris en charge pour la quantification	Prend en charge le décodage spéculatif	Prend en charge le chargement rapide des modèles	Bibliothèques utilisées pour la compilation
Meta Llama 2 13B	INT4-AWQ INT8-SmoothQuant FP8	Oui	Oui	AWSNeurone TensorRT-LLM
Meta Llama 2 13B Chat	INT4-AWQ INT8-SmoothQuant FP8	Oui	Oui	AWSNeurone TensorRT-LLM
Meta Llama 2 70B	INT4-AWQ INT8-SmoothQuant FP8	Oui	Oui	AWSNeurone TensorRT-LLM
Meta Llama 2 70B Chat	INT4-AWQ INT8-SmoothQuant FP8	Oui	Oui	AWSNeurone TensorRT-LLM
Meta Llama 2 7B	INT4-AWQ INT8-SmoothQuant FP8	Oui	Oui	AWSNeurone TensorRT-LLM
Meta Llama 2 7B Chat	INT4-AWQ INT8-SmoothQuant FP8	Oui	Oui	AWSNeurone TensorRT-LLM
Meta Llama 3 70B	INT4-AWQ INT8-SmoothQuant FP8	Oui	Oui	AWSNeurone TensorRT-LLM
Meta Llama 3 70B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Oui	Oui	AWSNeurone TensorRT-LLM
Meta Llama 3 8B	INT4-AWQ INT8-SmoothQuant FP8	Oui	Oui	AWSNeurone TensorRT-LLM
Meta Llama 3 8B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Oui	Oui	AWSNeurone TensorRT-LLM
Meta Code Llama 13B	INT4-AWQ INT8-SmoothQuant FP8	Oui	Oui	TensorRT-LLM
Meta Code Llama 13B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Oui	Oui	TensorRT-LLM
Meta Code Llama 13B Python	INT4-AWQ INT8-SmoothQuant FP8	Oui	Oui	TensorRT-LLM
Meta Code Llama 34B	INT4-AWQ INT8-SmoothQuant FP8	Oui	Oui	TensorRT-LLM
Meta Code Llama 34B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Oui	Oui	TensorRT-LLM
Meta Code Llama 34B Python	INT4-AWQ INT8-SmoothQuant FP8	Oui	Oui	TensorRT-LLM
Meta Code Llama 70B	INT4-AWQ INT8-SmoothQuant FP8	Oui	Oui	TensorRT-LLM
Meta Code Llama 70B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Oui	Oui	TensorRT-LLM
Meta Code Llama 70B Python	INT4-AWQ INT8-SmoothQuant FP8	Oui	Oui	TensorRT-LLM
Meta Code Llama 7B	INT4-AWQ INT8-SmoothQuant FP8	Oui	Oui	TensorRT-LLM
Meta Code Llama 7B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Oui	Oui	TensorRT-LLM
Meta Code Llama 7B Python	INT4-AWQ INT8-SmoothQuant FP8	Oui	Oui	TensorRT-LLM
Meta Llama 2 13B Neuron	Aucune	Non	Non	AWSNeurone
Meta Llama 2 13B Chat Neuron	Aucune	Non	Non	AWSNeurone
Meta Llama 2 70B Neuron	Aucune	Non	Non	AWSNeurone
Meta Llama 2 70B Chat Neuron	Aucune	Non	Non	AWSNeurone
Meta Llama 2 7B Neuron	Aucune	Non	Non	AWSNeurone
Meta Llama 2 7B Chat Neuron	Aucune	Non	Non	AWSNeurone
Meta Llama 3 70B Neuron	Aucune	Non	Non	AWSNeurone
Meta Llama 3 70B Instruct Neuron	Aucune	Non	Non	AWSNeurone
Meta Llama 3 8B Neuron	Aucune	Non	Non	AWSNeurone
Meta Llama 3 8B Instruct Neuron	Aucune	Non	Non	AWSNeurone
Meta Code Llama 70B Neuron	Aucune	Non	Non	AWSNeurone
Meta Code Llama 7B Neuron	Aucune	Non	Non	AWSNeurone
Meta Code Llama 7B Python Neuron	Aucune	Non	Non	AWSNeurone
Meta Llama 3.1 405B FP8	Aucune	Oui	Oui	Aucune
Meta Llama 3.1 405B Instruire FP8	Aucune	Oui	Oui	Aucune
Meta Llama 3.1 70B	INT4-AWQ FP8	Oui	Oui	Aucune
Meta Llama 3.1 70B Instruct	INT4-AWQ FP8	Oui	Oui	Aucune
Meta Llama 3.1 8B	INT4-AWQ FP8	Oui	Oui	Aucune
Meta Llama 3.1 8B Instruct	INT4-AWQ FP8	Oui	Oui	Aucune
Meta Llama 3.1 70B Neuron	Aucune	Non	Non	AWSNeurone
Meta Llama 3.1 70B Instruct Neuron	Aucune	Non	Non	AWSNeurone
Meta Llama 3 1 8B Neuron	Aucune	Non	Non	AWSNeurone
Meta Llama 3.1 8B Instruct Neuron	Aucune	Non	Non	AWSNeurone

Modèles Mistral pris en charge
Nom du modèle	Formats de données pris en charge pour la quantification	Prend en charge le décodage spéculatif	Prend en charge le chargement rapide des modèles	Bibliothèques utilisées pour la compilation
Mistral 7B	INT4-AWQ INT8-SmoothQuant FP8	Oui	Oui	AWSNeurone TensorRT-LLM
Mistral 7B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Oui	Oui	AWSNeurone TensorRT-LLM
Mistral 7B Neuron	Aucune	Non	Non	AWSNeurone
Mistral 7B Instruct Neuron	Aucune	Non	Non	AWSNeurone

Modèles Mixtral pris en charge
Nom du modèle	Formats de données pris en charge pour la quantification	Prend en charge le décodage spéculatif	Prend en charge le chargement rapide des modèles	Bibliothèques utilisées pour la compilation
Mixtral-8x22B-Instruct-v0.1	INT4-AWQ INT8-SmoothQuant FP8	Oui	Oui	TensorRT-LLM
Mixtral-8x22B V1	INT4-AWQ INT8-SmoothQuant FP8	Oui	Oui	TensorRT-LLM
Mixtral 8x7B	INT4-AWQ INT8-SmoothQuant FP8	Oui	Oui	TensorRT-LLM
Mixtral 8x7B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Oui	Oui	TensorRT-LLM

Architectures de modèles prises en charge et type EAGLE
Nom de l'architecture du modèle	Type EAGLE
LlamaForCausalLM	AIGLE 3
Qwen 3 km ForCausal	AIGLE 3
Qwen 3 km NextForCausal	AIGLE 2
Qwen 3 km MoeForCausal	AIGLE 3
Qwen 2 km ForCausal	AIGLE 3
GptOssForCausalLM	AIGLE 3

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Évaluation des performances

Options d’évaluation du modèle