Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Referencia de modelos compatibles
En las tablas siguientes se muestran los modelos en los que la SageMaker IA admite la optimización de inferencias y las técnicas de optimización compatibles.
| Nombre del modelo | Formatos de datos admitidos para la cuantización | Admite decodificación especulativa | Admite carga rápida de modelos | Bibliotecas utilizadas para compilación |
|---|---|---|---|---|
| Meta Llama 2 13B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sí | Sí |
AWSNeurona TensorRT-LLM |
| Meta Llama 2 13B Chat |
INT4-AWQ INT8-SmoothQuant FP8 |
Sí | Sí |
AWSNeurona TensorRT-LLM |
| Meta Llama 2 70B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sí | Sí |
AWSNeurona TensorRT-LLM |
| Meta Llama 2 70B Chat |
INT4-AWQ INT8-SmoothQuant FP8 |
Sí | Sí |
AWSNeurona TensorRT-LLM |
| Meta Llama 2 7B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sí | Sí |
AWSNeurona TensorRT-LLM |
| Meta Llama 2 7B Chat |
INT4-AWQ INT8-SmoothQuant FP8 |
Sí | Sí |
AWSNeurona TensorRT-LLM |
| Meta Llama 3 70B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sí | Sí |
AWSNeurona TensorRT-LLM |
| Meta Llama 3 70B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Sí | Sí |
AWSNeurona TensorRT-LLM |
| Meta Llama 3 8B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sí | Sí |
AWSNeurona TensorRT-LLM |
| Meta Llama 3 8B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Sí | Sí |
AWSNeurona TensorRT-LLM |
| Meta Code Llama 13B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sí | Sí |
TensorRT-LLM |
| Meta Code Llama 13B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Sí | Sí |
TensorRT-LLM |
| Meta Code Llama 13B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
Sí | Sí |
TensorRT-LLM |
| Meta Code Llama 34B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sí | Sí |
TensorRT-LLM |
| Meta Code Llama 34B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Sí | Sí |
TensorRT-LLM |
| Meta Code Llama 34B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
Sí | Sí |
TensorRT-LLM |
| Meta Code Llama 70B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sí | Sí |
TensorRT-LLM |
| Meta Code Llama 70B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Sí | Sí |
TensorRT-LLM |
| Meta Code Llama 70B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
Sí | Sí |
TensorRT-LLM |
| Meta Code Llama 7B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sí | Sí |
TensorRT-LLM |
| Meta Code Llama 7B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Sí | Sí |
TensorRT-LLM |
| Meta Code Llama 7B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
Sí | Sí |
TensorRT-LLM |
| Meta Llama 2 13B Neuron | Ninguno | No | No |
AWSNeurona |
| Meta Llama 2 13B Chat Neuron | Ninguno | No | No |
AWSNeurona |
| Meta Llama 2 70B Neuron | Ninguno | No | No |
AWSNeurona |
| Meta Llama 2 70B Chat Neuron | Ninguno | No | No |
AWSNeurona |
| Meta Llama 2 7B Neuron | Ninguno | No | No |
AWSNeurona |
| Meta Llama 2 7B Chat Neuron | Ninguno | No | No |
AWSNeurona |
| Meta Llama 3 70B Neuron | Ninguno | No | No |
AWSNeurona |
| Meta Llama 3 70B Instruct Neuron | Ninguno | No | No |
AWSNeurona |
| Meta Llama 3 8B Neuron | Ninguno | No | No |
AWSNeurona |
| Meta Llama 3 8B Instruct Neuron | Ninguno | No | No |
AWSNeurona |
| Meta Code Llama 70B Neuron | Ninguno | No | No |
AWSNeurona |
| Meta Code Llama 7B Neuron | Ninguno | No | No |
AWSNeurona |
| Meta Code Llama 7B Python Neuron | Ninguno | No | No |
AWSNeurona |
| Meta Llama 3.1 405B FP8 | Ninguno | Sí | Sí |
Ninguno |
| Meta Llama 3.1 405B Instruct FP8 | Ninguno | Sí | Sí |
Ninguno |
| Meta Llama 3.1 70B |
INT4-AWQ FP8 |
Sí | Sí |
Ninguno |
| Meta Llama 3.1 70B Instruct |
INT4-AWQ FP8 |
Sí | Sí |
Ninguno |
| Meta Llama 3.1 8B |
INT4-AWQ FP8 |
Sí | Sí |
Ninguno |
| Meta Llama 3.1 8B Instruct |
INT4-AWQ FP8 |
Sí | Sí |
Ninguno |
| Meta Llama 3.1 70B Neuron | Ninguno | No | No |
AWSNeurona |
| Meta Llama 3.1 70B Instruct Neuron | Ninguno | No | No |
AWSNeurona |
| Meta Llama 3 1 8B Neuron | Ninguno | No | No |
AWSNeurona |
| Meta Llama 3.1 8B Instruct Neuron | Ninguno | No | No |
AWSNeurona |
| Nombre del modelo | Formatos de datos admitidos para la cuantización | Admite decodificación especulativa | Admite carga rápida de modelos | Bibliotecas utilizadas para compilación |
|---|---|---|---|---|
| Mistral 7B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sí | Sí |
AWSNeurona TensorRT-LLM |
| Mistral 7B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Sí | Sí |
AWSNeurona TensorRT-LLM |
| Mistral 7B Neuron | Ninguno | No | No |
AWSNeurona |
| Mistral 7B Instruct Neuron | Ninguno | No | No |
AWSNeurona |
| Nombre del modelo | Formatos de datos admitidos para la cuantización | Admite decodificación especulativa | Admite carga rápida de modelos | Bibliotecas utilizadas para compilación |
|---|---|---|---|---|
| Mixtral-8x22B-Instruct-v0.1 |
INT4-AWQ INT8-SmoothQuant FP8 |
Sí | Sí |
TensorRT-LLM |
| Mixtral-8x22B V1 |
INT4-AWQ INT8-SmoothQuant FP8 |
Sí | Sí |
TensorRT-LLM |
| Mixtral 8x7B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sí | Sí |
TensorRT-LLM |
| Mixtral 8x7B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Sí | Sí |
TensorRT-LLM |
|
Nombre de la arquitectura del modelo |
Tipo EAGLE |
|---|---|
|
LlamaForCausalLM |
ÁGUILA 3 |
|
Qwen 3 KM ForCausal |
ÁGUILA 3 |
|
Qwen 3 KM NextForCausal |
ÁGUILA 2 |
|
Qwen 3 KM MoeForCausal |
ÁGUILA 3 |
|
Qwen2 LM ForCausal |
ÁGUILA 3 |
|
GptOssForCausalLM |
ÁGUILA 3 |