Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Référence des modèles pris en charge
Les tableaux suivants présentent les modèles pour lesquels l' SageMaker IA prend en charge l'optimisation par inférence, ainsi que les techniques d'optimisation prises en charge.
| Nom du modèle | Formats de données pris en charge pour la quantification | Prend en charge le décodage spéculatif | Prend en charge le chargement rapide des modèles | Bibliothèques utilisées pour la compilation |
|---|---|---|---|---|
| Meta Llama 2 13B |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
AWSNeurone TensorRT-LLM |
| Meta Llama 2 13B Chat |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
AWSNeurone TensorRT-LLM |
| Meta Llama 2 70B |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
AWSNeurone TensorRT-LLM |
| Meta Llama 2 70B Chat |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
AWSNeurone TensorRT-LLM |
| Meta Llama 2 7B |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
AWSNeurone TensorRT-LLM |
| Meta Llama 2 7B Chat |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
AWSNeurone TensorRT-LLM |
| Meta Llama 3 70B |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
AWSNeurone TensorRT-LLM |
| Meta Llama 3 70B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
AWSNeurone TensorRT-LLM |
| Meta Llama 3 8B |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
AWSNeurone TensorRT-LLM |
| Meta Llama 3 8B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
AWSNeurone TensorRT-LLM |
| Meta Code Llama 13B |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
TensorRT-LLM |
| Meta Code Llama 13B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
TensorRT-LLM |
| Meta Code Llama 13B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
TensorRT-LLM |
| Meta Code Llama 34B |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
TensorRT-LLM |
| Meta Code Llama 34B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
TensorRT-LLM |
| Meta Code Llama 34B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
TensorRT-LLM |
| Meta Code Llama 70B |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
TensorRT-LLM |
| Meta Code Llama 70B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
TensorRT-LLM |
| Meta Code Llama 70B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
TensorRT-LLM |
| Meta Code Llama 7B |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
TensorRT-LLM |
| Meta Code Llama 7B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
TensorRT-LLM |
| Meta Code Llama 7B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
TensorRT-LLM |
| Meta Llama 2 13B Neuron | Aucune | Non | Non |
AWSNeurone |
| Meta Llama 2 13B Chat Neuron | Aucune | Non | Non |
AWSNeurone |
| Meta Llama 2 70B Neuron | Aucune | Non | Non |
AWSNeurone |
| Meta Llama 2 70B Chat Neuron | Aucune | Non | Non |
AWSNeurone |
| Meta Llama 2 7B Neuron | Aucune | Non | Non |
AWSNeurone |
| Meta Llama 2 7B Chat Neuron | Aucune | Non | Non |
AWSNeurone |
| Meta Llama 3 70B Neuron | Aucune | Non | Non |
AWSNeurone |
| Meta Llama 3 70B Instruct Neuron | Aucune | Non | Non |
AWSNeurone |
| Meta Llama 3 8B Neuron | Aucune | Non | Non |
AWSNeurone |
| Meta Llama 3 8B Instruct Neuron | Aucune | Non | Non |
AWSNeurone |
| Meta Code Llama 70B Neuron | Aucune | Non | Non |
AWSNeurone |
| Meta Code Llama 7B Neuron | Aucune | Non | Non |
AWSNeurone |
| Meta Code Llama 7B Python Neuron | Aucune | Non | Non |
AWSNeurone |
| Meta Llama 3.1 405B FP8 | Aucune | Oui | Oui |
Aucune |
| Meta Llama 3.1 405B Instruire FP8 | Aucune | Oui | Oui |
Aucune |
| Meta Llama 3.1 70B |
INT4-AWQ FP8 |
Oui | Oui |
Aucune |
| Meta Llama 3.1 70B Instruct |
INT4-AWQ FP8 |
Oui | Oui |
Aucune |
| Meta Llama 3.1 8B |
INT4-AWQ FP8 |
Oui | Oui |
Aucune |
| Meta Llama 3.1 8B Instruct |
INT4-AWQ FP8 |
Oui | Oui |
Aucune |
| Meta Llama 3.1 70B Neuron | Aucune | Non | Non |
AWSNeurone |
| Meta Llama 3.1 70B Instruct Neuron | Aucune | Non | Non |
AWSNeurone |
| Meta Llama 3 1 8B Neuron | Aucune | Non | Non |
AWSNeurone |
| Meta Llama 3.1 8B Instruct Neuron | Aucune | Non | Non |
AWSNeurone |
| Nom du modèle | Formats de données pris en charge pour la quantification | Prend en charge le décodage spéculatif | Prend en charge le chargement rapide des modèles | Bibliothèques utilisées pour la compilation |
|---|---|---|---|---|
| Mistral 7B |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
AWSNeurone TensorRT-LLM |
| Mistral 7B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
AWSNeurone TensorRT-LLM |
| Mistral 7B Neuron | Aucune | Non | Non |
AWSNeurone |
| Mistral 7B Instruct Neuron | Aucune | Non | Non |
AWSNeurone |
| Nom du modèle | Formats de données pris en charge pour la quantification | Prend en charge le décodage spéculatif | Prend en charge le chargement rapide des modèles | Bibliothèques utilisées pour la compilation |
|---|---|---|---|---|
| Mixtral-8x22B-Instruct-v0.1 |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
TensorRT-LLM |
| Mixtral-8x22B V1 |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
TensorRT-LLM |
| Mixtral 8x7B |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
TensorRT-LLM |
| Mixtral 8x7B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Oui | Oui |
TensorRT-LLM |
|
Nom de l'architecture du modèle |
Type EAGLE |
|---|---|
|
LlamaForCausalLM |
AIGLE 3 |
|
Qwen 3 km ForCausal |
AIGLE 3 |
|
Qwen 3 km NextForCausal |
AIGLE 2 |
|
Qwen 3 km MoeForCausal |
AIGLE 3 |
|
Qwen 2 km ForCausal |
AIGLE 3 |
|
GptOssForCausalLM |
AIGLE 3 |