Referência de modelos compatíveis - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Referência de modelos compatíveis

As tabelas a seguir mostram os modelos para os quais a SageMaker IA oferece suporte à otimização de inferência e mostram as técnicas de otimização suportadas.

Modelos Llama compatíveis
Nome do modelo Formatos de dados aceitos para quantização Permite decodificação especulativa Permite carregamento rápido de modelos Bibliotecas usadas para compilação
Meta Llama 2 13B

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

AWSNeurônio

TensorRT-LLM

Llama 2 13B Chat da Meta

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

AWSNeurônio

TensorRT-LLM

Meta Llama 2 70B

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

AWSNeurônio

TensorRT-LLM

Llama 2 70B Chat da Meta

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

AWSNeurônio

TensorRT-LLM

Meta Llama 2 7B

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

AWSNeurônio

TensorRT-LLM

Llama 2 7B Chat da Meta

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

AWSNeurônio

TensorRT-LLM

Llama 3 70B da Meta

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

AWSNeurônio

TensorRT-LLM

Llama 3 70B Instruct da Meta

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

AWSNeurônio

TensorRT-LLM

Llama 3 8B da Meta

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

AWSNeurônio

TensorRT-LLM

Llama 3 8B Instruct da Meta

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

AWSNeurônio

TensorRT-LLM

Code Llama 13B da Meta

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

TensorRT-LLM

Code Llama 13B Instruct da Meta

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

TensorRT-LLM

Code Llama 13B Python da Meta

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

TensorRT-LLM

Code Llama 34B da Meta

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

TensorRT-LLM

Code Llama 34B Instruct da Meta

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

TensorRT-LLM

Code Llama 34B Python da Meta

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

TensorRT-LLM

Code Llama 70B da Meta

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

TensorRT-LLM

Code Llama 70B Instruct da Meta

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

TensorRT-LLM

Code Llama 70B Python da Meta

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

TensorRT-LLM

Code Llama 7B da Meta

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

TensorRT-LLM

Code Llama 7B Instruct da Meta

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

TensorRT-LLM

Code Llama 7B Python da Meta

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

TensorRT-LLM

Llama 2 13B Neuron da Meta Nenhum Não Não

AWSNeurônio

Llama 2 13B Chat Neuron da Meta Nenhum Não Não

AWSNeurônio

Llama 2 70B Neuron da Meta Nenhum Não Não

AWSNeurônio

Llama 2 70B Chat Neuron da Meta Nenhum Não Não

AWSNeurônio

Llama 2 7B Neuron da Meta Nenhum Não Não

AWSNeurônio

Llama 2 7B Chat Neuron da Meta Nenhum Não Não

AWSNeurônio

Llama 3 70B Neuron da Meta Nenhum Não Não

AWSNeurônio

Llama 3 70B Instruct Neuron da Meta Nenhum Não Não

AWSNeurônio

Llama 3 8B Neuron da Meta Nenhum Não Não

AWSNeurônio

Llama 3 8B Instruct Neuron da Meta Nenhum Não Não

AWSNeurônio

Code Llama 70B Neuron da Meta Nenhum Não Não

AWSNeurônio

Code Llama 7B Neuron da Meta Nenhum Não Não

AWSNeurônio

Code Llama 7B Python Neuron da Meta Nenhum Não Não

AWSNeurônio

Metal Llama 3.1 405B FP8 Nenhum Sim Sim

Nenhum

Instrução Meta Llama 3.1 405B FP8 Nenhum Sim Sim

Nenhum

Llama 3.1 70B da Meta

INT4-AWQ

FP8

Sim Sim

Nenhum

Llama 3.1 70B Instruct da Meta

INT4-AWQ

FP8

Sim Sim

Nenhum

Llama 3.1 8B da Meta

INT4-AWQ

FP8

Sim Sim

Nenhum

Llama 3.1 8B Instruct da Meta

INT4-AWQ

FP8

Sim Sim

Nenhum

Llama 3.1 70B Neuron da Meta Nenhum Não Não

AWSNeurônio

Llama 3.1 70B Instruct Neuron da Meta Nenhum Não Não

AWSNeurônio

Llama 3 1 8B Neuron da Meta Nenhum Não Não

AWSNeurônio

Llama 3.1 8B Instruct Neuron da Meta Nenhum Não Não

AWSNeurônio

Modelos Mistral compatíveis
Nome do modelo Formatos de dados aceitos para quantização Permite decodificação especulativa Permite carregamento rápido de modelos Bibliotecas usadas para compilação
Mistral 7B

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

AWSNeurônio

TensorRT-LLM

Mistral 7B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

AWSNeurônio

TensorRT-LLM

Mistral 7B Neuron Nenhum Não Não

AWSNeurônio

Mistral 7B Instruct Neuron Nenhum Não Não

AWSNeurônio

Modelos Mixtral compatíveis
Nome do modelo Formatos de dados aceitos para quantização Permite decodificação especulativa Permite carregamento rápido de modelos Bibliotecas usadas para compilação
Mixtral-8x22B-Instruct-v0.1

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

TensorRT-LLM

Mixtral-8x22B V1

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

TensorRT-LLM

Mixtral 8x7B

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

TensorRT-LLM

Mixtral 8x7B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

Sim Sim

TensorRT-LLM

Arquiteturas de modelo suportadas e tipo EAGLE

Nome da arquitetura do modelo

Tipo EAGLE

LlamaForCausalLM

ÁGUIA 3

Rainha 3 LM ForCausal

ÁGUIA 3

Rainha 3 LM NextForCausal

ÁGUIA 2

Rainha 3 LM MoeForCausal 

ÁGUIA 3

Rainha 2 LM ForCausal

ÁGUIA 3

GptOssForCausalLM

ÁGUIA 3