

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Référence des modèles pris en charge
<a name="optimization-supported-models"></a>

Les tableaux suivants présentent les modèles pour lesquels l' SageMaker IA prend en charge l'optimisation par inférence, ainsi que les techniques d'optimisation prises en charge.


**Modèles Llama pris en charge**  

| Nom du modèle | Formats de données pris en charge pour la quantification | Prend en charge le décodage spéculatif | Prend en charge le chargement rapide des modèles | Bibliothèques utilisées pour la compilation | 
| --- | --- | --- | --- | --- | 
| Meta Llama 2 13B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Oui | Oui | AWSNeurone<br />TensorRT-LLM | 
| Meta Llama 2 13B Chat | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Oui | Oui | AWSNeurone<br />TensorRT-LLM | 
| Meta Llama 2 70B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Oui | Oui | AWSNeurone<br />TensorRT-LLM | 
| Meta Llama 2 70B Chat | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Oui | Oui | AWSNeurone<br />TensorRT-LLM | 
| Meta Llama 2 7B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Oui | Oui | AWSNeurone<br />TensorRT-LLM | 
| Meta Llama 2 7B Chat | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Oui | Oui | AWSNeurone<br />TensorRT-LLM | 
| Meta Llama 3 70B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Oui | Oui | AWSNeurone<br />TensorRT-LLM | 
| Meta Llama 3 70B Instruct | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Oui | Oui | AWSNeurone<br />TensorRT-LLM | 
| Meta Llama 3 8B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Oui | Oui | AWSNeurone<br />TensorRT-LLM | 
| Meta Llama 3 8B Instruct | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Oui | Oui | AWSNeurone<br />TensorRT-LLM | 
| Meta Code Llama 13B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Oui | Oui | TensorRT-LLM | 
| Meta Code Llama 13B Instruct | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Oui | Oui | TensorRT-LLM | 
| Meta Code Llama 13B Python | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Oui | Oui | TensorRT-LLM | 
| Meta Code Llama 34B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Oui | Oui | TensorRT-LLM | 
| Meta Code Llama 34B Instruct  | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Oui | Oui | TensorRT-LLM | 
| Meta Code Llama 34B Python | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Oui | Oui | TensorRT-LLM | 
| Meta Code Llama 70B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Oui | Oui | TensorRT-LLM | 
| Meta Code Llama 70B Instruct | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Oui | Oui | TensorRT-LLM | 
| Meta Code Llama 70B Python | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Oui | Oui | TensorRT-LLM | 
| Meta Code Llama 7B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Oui | Oui | TensorRT-LLM | 
| Meta Code Llama 7B Instruct | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Oui | Oui | TensorRT-LLM | 
| Meta Code Llama 7B Python | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Oui | Oui | TensorRT-LLM | 
| Meta Llama 2 13B Neuron | Aucune | Non | Non | AWSNeurone | 
| Meta Llama 2 13B Chat Neuron | Aucune | Non | Non | AWSNeurone | 
| Meta Llama 2 70B Neuron | Aucune | Non | Non | AWSNeurone | 
| Meta Llama 2 70B Chat Neuron | Aucune | Non | Non | AWSNeurone | 
| Meta Llama 2 7B Neuron | Aucune | Non | Non | AWSNeurone | 
| Meta Llama 2 7B Chat Neuron | Aucune | Non | Non | AWSNeurone | 
| Meta Llama 3 70B Neuron | Aucune | Non | Non | AWSNeurone | 
| Meta Llama 3 70B Instruct Neuron | Aucune | Non | Non | AWSNeurone | 
| Meta Llama 3 8B Neuron | Aucune | Non | Non | AWSNeurone | 
| Meta Llama 3 8B Instruct Neuron | Aucune | Non | Non | AWSNeurone | 
| Meta Code Llama 70B Neuron | Aucune | Non | Non | AWSNeurone | 
| Meta Code Llama 7B Neuron | Aucune | Non | Non | AWSNeurone | 
| Meta Code Llama 7B Python Neuron | Aucune | Non | Non | AWSNeurone | 
| Meta Llama 3.1 405B FP8 | Aucune | Oui | Oui | Aucune | 
| Meta Llama 3.1 405B Instruire FP8 | Aucune | Oui | Oui | Aucune | 
| Meta Llama 3.1 70B | INT4-AWQ<br />FP8 | Oui | Oui | Aucune | 
| Meta Llama 3.1 70B Instruct | INT4-AWQ<br />FP8 | Oui | Oui | Aucune | 
| Meta Llama 3.1 8B | INT4-AWQ<br />FP8 | Oui | Oui | Aucune | 
| Meta Llama 3.1 8B Instruct | INT4-AWQ<br />FP8 | Oui | Oui | Aucune | 
| Meta Llama 3.1 70B Neuron | Aucune | Non | Non | AWSNeurone | 
| Meta Llama 3.1 70B Instruct Neuron | Aucune | Non | Non | AWSNeurone | 
| Meta Llama 3 1 8B Neuron | Aucune | Non | Non | AWSNeurone | 
| Meta Llama 3.1 8B Instruct Neuron | Aucune | Non | Non | AWSNeurone | 


**Modèles Mistral pris en charge**  

| Nom du modèle | Formats de données pris en charge pour la quantification | Prend en charge le décodage spéculatif | Prend en charge le chargement rapide des modèles | Bibliothèques utilisées pour la compilation | 
| --- | --- | --- | --- | --- | 
| Mistral 7B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Oui | Oui | AWSNeurone<br />TensorRT-LLM | 
| Mistral 7B Instruct | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Oui | Oui | AWSNeurone<br />TensorRT-LLM | 
| Mistral 7B Neuron | Aucune | Non | Non | AWSNeurone | 
| Mistral 7B Instruct Neuron | Aucune | Non | Non | AWSNeurone | 


**Modèles Mixtral pris en charge**  

| Nom du modèle | Formats de données pris en charge pour la quantification | Prend en charge le décodage spéculatif | Prend en charge le chargement rapide des modèles | Bibliothèques utilisées pour la compilation | 
| --- | --- | --- | --- | --- | 
| Mixtral-8x22B-Instruct-v0.1 | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Oui | Oui | TensorRT-LLM | 
| Mixtral-8x22B V1 | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Oui | Oui | TensorRT-LLM | 
| Mixtral 8x7B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Oui | Oui | TensorRT-LLM | 
| Mixtral 8x7B Instruct | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Oui | Oui | TensorRT-LLM | 


**Architectures de modèles prises en charge et type EAGLE**  

|  Nom de l'architecture du modèle  |  Type EAGLE  | 
| --- | --- | 
| LlamaForCausalLM | AIGLE 3 | 
| Qwen 3 km ForCausal | AIGLE 3 | 
| Qwen 3 km NextForCausal | AIGLE 2 | 
| Qwen 3 km MoeForCausal  | AIGLE 3 | 
| Qwen 2 km ForCausal | AIGLE 3 | 
| GptOssForCausalLM | AIGLE 3 | 