

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Referencia de modelos compatibles
<a name="optimization-supported-models"></a>

En las tablas siguientes se muestran los modelos en los que la SageMaker IA admite la optimización de inferencias y las técnicas de optimización compatibles.


**Modelos Llama compatibles**  

| Nombre del modelo | Formatos de datos admitidos para la cuantización | Admite decodificación especulativa | Admite carga rápida de modelos | Bibliotecas utilizadas para compilación | 
| --- | --- | --- | --- | --- | 
| Meta Llama 2 13B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sí | Sí | AWSNeurona<br />TensorRT-LLM | 
| Meta Llama 2 13B Chat | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sí | Sí | AWSNeurona<br />TensorRT-LLM | 
| Meta Llama 2 70B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sí | Sí | AWSNeurona<br />TensorRT-LLM | 
| Meta Llama 2 70B Chat | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sí | Sí | AWSNeurona<br />TensorRT-LLM | 
| Meta Llama 2 7B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sí | Sí | AWSNeurona<br />TensorRT-LLM | 
| Meta Llama 2 7B Chat | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sí | Sí | AWSNeurona<br />TensorRT-LLM | 
| Meta Llama 3 70B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sí | Sí | AWSNeurona<br />TensorRT-LLM | 
| Meta Llama 3 70B Instruct | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sí | Sí | AWSNeurona<br />TensorRT-LLM | 
| Meta Llama 3 8B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sí | Sí | AWSNeurona<br />TensorRT-LLM | 
| Meta Llama 3 8B Instruct | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sí | Sí | AWSNeurona<br />TensorRT-LLM | 
| Meta Code Llama 13B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sí | Sí | TensorRT-LLM | 
| Meta Code Llama 13B Instruct | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sí | Sí | TensorRT-LLM | 
| Meta Code Llama 13B Python | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sí | Sí | TensorRT-LLM | 
| Meta Code Llama 34B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sí | Sí | TensorRT-LLM | 
| Meta Code Llama 34B Instruct  | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sí | Sí | TensorRT-LLM | 
| Meta Code Llama 34B Python | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sí | Sí | TensorRT-LLM | 
| Meta Code Llama 70B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sí | Sí | TensorRT-LLM | 
| Meta Code Llama 70B Instruct | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sí | Sí | TensorRT-LLM | 
| Meta Code Llama 70B Python | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sí | Sí | TensorRT-LLM | 
| Meta Code Llama 7B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sí | Sí | TensorRT-LLM | 
| Meta Code Llama 7B Instruct | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sí | Sí | TensorRT-LLM | 
| Meta Code Llama 7B Python | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sí | Sí | TensorRT-LLM | 
| Meta Llama 2 13B Neuron | Ninguno | No | No | AWSNeurona | 
| Meta Llama 2 13B Chat Neuron | Ninguno | No | No | AWSNeurona | 
| Meta Llama 2 70B Neuron | Ninguno | No | No | AWSNeurona | 
| Meta Llama 2 70B Chat Neuron | Ninguno | No | No | AWSNeurona | 
| Meta Llama 2 7B Neuron | Ninguno | No | No | AWSNeurona | 
| Meta Llama 2 7B Chat Neuron | Ninguno | No | No | AWSNeurona | 
| Meta Llama 3 70B Neuron | Ninguno | No | No | AWSNeurona | 
| Meta Llama 3 70B Instruct Neuron | Ninguno | No | No | AWSNeurona | 
| Meta Llama 3 8B Neuron | Ninguno | No | No | AWSNeurona | 
| Meta Llama 3 8B Instruct Neuron | Ninguno | No | No | AWSNeurona | 
| Meta Code Llama 70B Neuron | Ninguno | No | No | AWSNeurona | 
| Meta Code Llama 7B Neuron | Ninguno | No | No | AWSNeurona | 
| Meta Code Llama 7B Python Neuron | Ninguno | No | No | AWSNeurona | 
| Meta Llama 3.1 405B FP8 | Ninguno | Sí | Sí | Ninguno | 
| Meta Llama 3.1 405B Instruct FP8 | Ninguno | Sí | Sí | Ninguno | 
| Meta Llama 3.1 70B | INT4-AWQ<br />FP8 | Sí | Sí | Ninguno | 
| Meta Llama 3.1 70B Instruct | INT4-AWQ<br />FP8 | Sí | Sí | Ninguno | 
| Meta Llama 3.1 8B | INT4-AWQ<br />FP8 | Sí | Sí | Ninguno | 
| Meta Llama 3.1 8B Instruct | INT4-AWQ<br />FP8 | Sí | Sí | Ninguno | 
| Meta Llama 3.1 70B Neuron | Ninguno | No | No | AWSNeurona | 
| Meta Llama 3.1 70B Instruct Neuron | Ninguno | No | No | AWSNeurona | 
| Meta Llama 3 1 8B Neuron | Ninguno | No | No | AWSNeurona | 
| Meta Llama 3.1 8B Instruct Neuron | Ninguno | No | No | AWSNeurona | 


**Modelos Mistral compatibles**  

| Nombre del modelo | Formatos de datos admitidos para la cuantización | Admite decodificación especulativa | Admite carga rápida de modelos | Bibliotecas utilizadas para compilación | 
| --- | --- | --- | --- | --- | 
| Mistral 7B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sí | Sí | AWSNeurona<br />TensorRT-LLM | 
| Mistral 7B Instruct | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sí | Sí | AWSNeurona<br />TensorRT-LLM | 
| Mistral 7B Neuron | Ninguno | No | No | AWSNeurona | 
| Mistral 7B Instruct Neuron | Ninguno | No | No | AWSNeurona | 


**Modelos Mixtral compatibles**  

| Nombre del modelo | Formatos de datos admitidos para la cuantización | Admite decodificación especulativa | Admite carga rápida de modelos | Bibliotecas utilizadas para compilación | 
| --- | --- | --- | --- | --- | 
| Mixtral-8x22B-Instruct-v0.1 | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sí | Sí | TensorRT-LLM | 
| Mixtral-8x22B V1 | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sí | Sí | TensorRT-LLM | 
| Mixtral 8x7B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sí | Sí | TensorRT-LLM | 
| Mixtral 8x7B Instruct | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sí | Sí | TensorRT-LLM | 


**Arquitecturas de modelos compatibles y tipo EAGLE**  

|  Nombre de la arquitectura del modelo  |  Tipo EAGLE  | 
| --- | --- | 
| LlamaForCausalLM | ÁGUILA 3 | 
| Qwen 3 KM ForCausal | ÁGUILA 3 | 
| Qwen 3 KM NextForCausal | ÁGUILA 2 | 
| Qwen 3 KM MoeForCausal  | ÁGUILA 3 | 
| Qwen2 LM ForCausal | ÁGUILA 3 | 
| GptOssForCausalLM | ÁGUILA 3 | 