As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Referência de modelos compatíveis
As tabelas a seguir mostram os modelos para os quais a SageMaker IA oferece suporte à otimização de inferência e mostram as técnicas de otimização suportadas.
| Nome do modelo | Formatos de dados aceitos para quantização | Permite decodificação especulativa | Permite carregamento rápido de modelos | Bibliotecas usadas para compilação |
|---|---|---|---|---|
| Meta Llama 2 13B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
AWSNeurônio TensorRT-LLM |
| Llama 2 13B Chat da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
AWSNeurônio TensorRT-LLM |
| Meta Llama 2 70B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
AWSNeurônio TensorRT-LLM |
| Llama 2 70B Chat da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
AWSNeurônio TensorRT-LLM |
| Meta Llama 2 7B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
AWSNeurônio TensorRT-LLM |
| Llama 2 7B Chat da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
AWSNeurônio TensorRT-LLM |
| Llama 3 70B da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
AWSNeurônio TensorRT-LLM |
| Llama 3 70B Instruct da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
AWSNeurônio TensorRT-LLM |
| Llama 3 8B da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
AWSNeurônio TensorRT-LLM |
| Llama 3 8B Instruct da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
AWSNeurônio TensorRT-LLM |
| Code Llama 13B da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
| Code Llama 13B Instruct da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
| Code Llama 13B Python da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
| Code Llama 34B da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
| Code Llama 34B Instruct da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
| Code Llama 34B Python da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
| Code Llama 70B da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
| Code Llama 70B Instruct da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
| Code Llama 70B Python da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
| Code Llama 7B da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
| Code Llama 7B Instruct da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
| Code Llama 7B Python da Meta |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
| Llama 2 13B Neuron da Meta | Nenhum | Não | Não |
AWSNeurônio |
| Llama 2 13B Chat Neuron da Meta | Nenhum | Não | Não |
AWSNeurônio |
| Llama 2 70B Neuron da Meta | Nenhum | Não | Não |
AWSNeurônio |
| Llama 2 70B Chat Neuron da Meta | Nenhum | Não | Não |
AWSNeurônio |
| Llama 2 7B Neuron da Meta | Nenhum | Não | Não |
AWSNeurônio |
| Llama 2 7B Chat Neuron da Meta | Nenhum | Não | Não |
AWSNeurônio |
| Llama 3 70B Neuron da Meta | Nenhum | Não | Não |
AWSNeurônio |
| Llama 3 70B Instruct Neuron da Meta | Nenhum | Não | Não |
AWSNeurônio |
| Llama 3 8B Neuron da Meta | Nenhum | Não | Não |
AWSNeurônio |
| Llama 3 8B Instruct Neuron da Meta | Nenhum | Não | Não |
AWSNeurônio |
| Code Llama 70B Neuron da Meta | Nenhum | Não | Não |
AWSNeurônio |
| Code Llama 7B Neuron da Meta | Nenhum | Não | Não |
AWSNeurônio |
| Code Llama 7B Python Neuron da Meta | Nenhum | Não | Não |
AWSNeurônio |
| Metal Llama 3.1 405B FP8 | Nenhum | Sim | Sim |
Nenhum |
| Instrução Meta Llama 3.1 405B FP8 | Nenhum | Sim | Sim |
Nenhum |
| Llama 3.1 70B da Meta |
INT4-AWQ FP8 |
Sim | Sim |
Nenhum |
| Llama 3.1 70B Instruct da Meta |
INT4-AWQ FP8 |
Sim | Sim |
Nenhum |
| Llama 3.1 8B da Meta |
INT4-AWQ FP8 |
Sim | Sim |
Nenhum |
| Llama 3.1 8B Instruct da Meta |
INT4-AWQ FP8 |
Sim | Sim |
Nenhum |
| Llama 3.1 70B Neuron da Meta | Nenhum | Não | Não |
AWSNeurônio |
| Llama 3.1 70B Instruct Neuron da Meta | Nenhum | Não | Não |
AWSNeurônio |
| Llama 3 1 8B Neuron da Meta | Nenhum | Não | Não |
AWSNeurônio |
| Llama 3.1 8B Instruct Neuron da Meta | Nenhum | Não | Não |
AWSNeurônio |
| Nome do modelo | Formatos de dados aceitos para quantização | Permite decodificação especulativa | Permite carregamento rápido de modelos | Bibliotecas usadas para compilação |
|---|---|---|---|---|
| Mistral 7B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
AWSNeurônio TensorRT-LLM |
| Mistral 7B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
AWSNeurônio TensorRT-LLM |
| Mistral 7B Neuron | Nenhum | Não | Não |
AWSNeurônio |
| Mistral 7B Instruct Neuron | Nenhum | Não | Não |
AWSNeurônio |
| Nome do modelo | Formatos de dados aceitos para quantização | Permite decodificação especulativa | Permite carregamento rápido de modelos | Bibliotecas usadas para compilação |
|---|---|---|---|---|
| Mixtral-8x22B-Instruct-v0.1 |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
| Mixtral-8x22B V1 |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
| Mixtral 8x7B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
| Mixtral 8x7B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Sim | Sim |
TensorRT-LLM |
|
Nome da arquitetura do modelo |
Tipo EAGLE |
|---|---|
|
LlamaForCausalLM |
ÁGUIA 3 |
|
Rainha 3 LM ForCausal |
ÁGUIA 3 |
|
Rainha 3 LM NextForCausal |
ÁGUIA 2 |
|
Rainha 3 LM MoeForCausal |
ÁGUIA 3 |
|
Rainha 2 LM ForCausal |
ÁGUIA 3 |
|
GptOssForCausalLM |
ÁGUIA 3 |