Référence des modèles pris en charge - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Référence des modèles pris en charge

Les tableaux suivants présentent les modèles pour lesquels l' SageMaker IA prend en charge l'optimisation par inférence, ainsi que les techniques d'optimisation prises en charge.

Modèles Llama pris en charge
Nom du modèle Formats de données pris en charge pour la quantification Prend en charge le décodage spéculatif Prend en charge le chargement rapide des modèles Bibliothèques utilisées pour la compilation
Meta Llama 2 13B

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

AWSNeurone

TensorRT-LLM

Meta Llama 2 13B Chat

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

AWSNeurone

TensorRT-LLM

Meta Llama 2 70B

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

AWSNeurone

TensorRT-LLM

Meta Llama 2 70B Chat

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

AWSNeurone

TensorRT-LLM

Meta Llama 2 7B

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

AWSNeurone

TensorRT-LLM

Meta Llama 2 7B Chat

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

AWSNeurone

TensorRT-LLM

Meta Llama 3 70B

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

AWSNeurone

TensorRT-LLM

Meta Llama 3 70B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

AWSNeurone

TensorRT-LLM

Meta Llama 3 8B

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

AWSNeurone

TensorRT-LLM

Meta Llama 3 8B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

AWSNeurone

TensorRT-LLM

Meta Code Llama 13B

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

TensorRT-LLM

Meta Code Llama 13B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

TensorRT-LLM

Meta Code Llama 13B Python

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

TensorRT-LLM

Meta Code Llama 34B

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

TensorRT-LLM

Meta Code Llama 34B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

TensorRT-LLM

Meta Code Llama 34B Python

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

TensorRT-LLM

Meta Code Llama 70B

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

TensorRT-LLM

Meta Code Llama 70B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

TensorRT-LLM

Meta Code Llama 70B Python

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

TensorRT-LLM

Meta Code Llama 7B

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

TensorRT-LLM

Meta Code Llama 7B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

TensorRT-LLM

Meta Code Llama 7B Python

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

TensorRT-LLM

Meta Llama 2 13B Neuron Aucune Non Non

AWSNeurone

Meta Llama 2 13B Chat Neuron Aucune Non Non

AWSNeurone

Meta Llama 2 70B Neuron Aucune Non Non

AWSNeurone

Meta Llama 2 70B Chat Neuron Aucune Non Non

AWSNeurone

Meta Llama 2 7B Neuron Aucune Non Non

AWSNeurone

Meta Llama 2 7B Chat Neuron Aucune Non Non

AWSNeurone

Meta Llama 3 70B Neuron Aucune Non Non

AWSNeurone

Meta Llama 3 70B Instruct Neuron Aucune Non Non

AWSNeurone

Meta Llama 3 8B Neuron Aucune Non Non

AWSNeurone

Meta Llama 3 8B Instruct Neuron Aucune Non Non

AWSNeurone

Meta Code Llama 70B Neuron Aucune Non Non

AWSNeurone

Meta Code Llama 7B Neuron Aucune Non Non

AWSNeurone

Meta Code Llama 7B Python Neuron Aucune Non Non

AWSNeurone

Meta Llama 3.1 405B FP8 Aucune Oui Oui

Aucune

Meta Llama 3.1 405B Instruire FP8 Aucune Oui Oui

Aucune

Meta Llama 3.1 70B

INT4-AWQ

FP8

Oui Oui

Aucune

Meta Llama 3.1 70B Instruct

INT4-AWQ

FP8

Oui Oui

Aucune

Meta Llama 3.1 8B

INT4-AWQ

FP8

Oui Oui

Aucune

Meta Llama 3.1 8B Instruct

INT4-AWQ

FP8

Oui Oui

Aucune

Meta Llama 3.1 70B Neuron Aucune Non Non

AWSNeurone

Meta Llama 3.1 70B Instruct Neuron Aucune Non Non

AWSNeurone

Meta Llama 3 1 8B Neuron Aucune Non Non

AWSNeurone

Meta Llama 3.1 8B Instruct Neuron Aucune Non Non

AWSNeurone

Modèles Mistral pris en charge
Nom du modèle Formats de données pris en charge pour la quantification Prend en charge le décodage spéculatif Prend en charge le chargement rapide des modèles Bibliothèques utilisées pour la compilation
Mistral 7B

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

AWSNeurone

TensorRT-LLM

Mistral 7B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

AWSNeurone

TensorRT-LLM

Mistral 7B Neuron Aucune Non Non

AWSNeurone

Mistral 7B Instruct Neuron Aucune Non Non

AWSNeurone

Modèles Mixtral pris en charge
Nom du modèle Formats de données pris en charge pour la quantification Prend en charge le décodage spéculatif Prend en charge le chargement rapide des modèles Bibliothèques utilisées pour la compilation
Mixtral-8x22B-Instruct-v0.1

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

TensorRT-LLM

Mixtral-8x22B V1

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

TensorRT-LLM

Mixtral 8x7B

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

TensorRT-LLM

Mixtral 8x7B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

Oui Oui

TensorRT-LLM

Architectures de modèles prises en charge et type EAGLE

Nom de l'architecture du modèle

Type EAGLE

LlamaForCausalLM

AIGLE 3

Qwen 3 km ForCausal

AIGLE 3

Qwen 3 km NextForCausal

AIGLE 2

Qwen 3 km MoeForCausal 

AIGLE 3

Qwen 2 km ForCausal

AIGLE 3

GptOssForCausalLM

AIGLE 3