Referencia de modelos compatibles - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Referencia de modelos compatibles

En las tablas siguientes se muestran los modelos en los que la SageMaker IA admite la optimización de inferencias y las técnicas de optimización compatibles.

Modelos Llama compatibles
Nombre del modelo Formatos de datos admitidos para la cuantización Admite decodificación especulativa Admite carga rápida de modelos Bibliotecas utilizadas para compilación
Meta Llama 2 13B

INT4-AWQ

INT8-SmoothQuant

FP8

AWSNeurona

TensorRT-LLM

Meta Llama 2 13B Chat

INT4-AWQ

INT8-SmoothQuant

FP8

AWSNeurona

TensorRT-LLM

Meta Llama 2 70B

INT4-AWQ

INT8-SmoothQuant

FP8

AWSNeurona

TensorRT-LLM

Meta Llama 2 70B Chat

INT4-AWQ

INT8-SmoothQuant

FP8

AWSNeurona

TensorRT-LLM

Meta Llama 2 7B

INT4-AWQ

INT8-SmoothQuant

FP8

AWSNeurona

TensorRT-LLM

Meta Llama 2 7B Chat

INT4-AWQ

INT8-SmoothQuant

FP8

AWSNeurona

TensorRT-LLM

Meta Llama 3 70B

INT4-AWQ

INT8-SmoothQuant

FP8

AWSNeurona

TensorRT-LLM

Meta Llama 3 70B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

AWSNeurona

TensorRT-LLM

Meta Llama 3 8B

INT4-AWQ

INT8-SmoothQuant

FP8

AWSNeurona

TensorRT-LLM

Meta Llama 3 8B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

AWSNeurona

TensorRT-LLM

Meta Code Llama 13B

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Meta Code Llama 13B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Meta Code Llama 13B Python

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Meta Code Llama 34B

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Meta Code Llama 34B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Meta Code Llama 34B Python

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Meta Code Llama 70B

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Meta Code Llama 70B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Meta Code Llama 70B Python

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Meta Code Llama 7B

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Meta Code Llama 7B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Meta Code Llama 7B Python

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Meta Llama 2 13B Neuron Ninguno No No

AWSNeurona

Meta Llama 2 13B Chat Neuron Ninguno No No

AWSNeurona

Meta Llama 2 70B Neuron Ninguno No No

AWSNeurona

Meta Llama 2 70B Chat Neuron Ninguno No No

AWSNeurona

Meta Llama 2 7B Neuron Ninguno No No

AWSNeurona

Meta Llama 2 7B Chat Neuron Ninguno No No

AWSNeurona

Meta Llama 3 70B Neuron Ninguno No No

AWSNeurona

Meta Llama 3 70B Instruct Neuron Ninguno No No

AWSNeurona

Meta Llama 3 8B Neuron Ninguno No No

AWSNeurona

Meta Llama 3 8B Instruct Neuron Ninguno No No

AWSNeurona

Meta Code Llama 70B Neuron Ninguno No No

AWSNeurona

Meta Code Llama 7B Neuron Ninguno No No

AWSNeurona

Meta Code Llama 7B Python Neuron Ninguno No No

AWSNeurona

Meta Llama 3.1 405B FP8 Ninguno

Ninguno

Meta Llama 3.1 405B Instruct FP8 Ninguno

Ninguno

Meta Llama 3.1 70B

INT4-AWQ

FP8

Ninguno

Meta Llama 3.1 70B Instruct

INT4-AWQ

FP8

Ninguno

Meta Llama 3.1 8B

INT4-AWQ

FP8

Ninguno

Meta Llama 3.1 8B Instruct

INT4-AWQ

FP8

Ninguno

Meta Llama 3.1 70B Neuron Ninguno No No

AWSNeurona

Meta Llama 3.1 70B Instruct Neuron Ninguno No No

AWSNeurona

Meta Llama 3 1 8B Neuron Ninguno No No

AWSNeurona

Meta Llama 3.1 8B Instruct Neuron Ninguno No No

AWSNeurona

Modelos Mistral compatibles
Nombre del modelo Formatos de datos admitidos para la cuantización Admite decodificación especulativa Admite carga rápida de modelos Bibliotecas utilizadas para compilación
Mistral 7B

INT4-AWQ

INT8-SmoothQuant

FP8

AWSNeurona

TensorRT-LLM

Mistral 7B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

AWSNeurona

TensorRT-LLM

Mistral 7B Neuron Ninguno No No

AWSNeurona

Mistral 7B Instruct Neuron Ninguno No No

AWSNeurona

Modelos Mixtral compatibles
Nombre del modelo Formatos de datos admitidos para la cuantización Admite decodificación especulativa Admite carga rápida de modelos Bibliotecas utilizadas para compilación
Mixtral-8x22B-Instruct-v0.1

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Mixtral-8x22B V1

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Mixtral 8x7B

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Mixtral 8x7B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Arquitecturas de modelos compatibles y tipo EAGLE

Nombre de la arquitectura del modelo

Tipo EAGLE

LlamaForCausalLM

ÁGUILA 3

Qwen 3 KM ForCausal

ÁGUILA 3

Qwen 3 KM NextForCausal

ÁGUILA 2

Qwen 3 KM MoeForCausal 

ÁGUILA 3

Qwen2 LM ForCausal

ÁGUILA 3

GptOssForCausalLM

ÁGUILA 3