

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Referência de modelos compatíveis
<a name="optimization-supported-models"></a>

As tabelas a seguir mostram os modelos para os quais a SageMaker IA oferece suporte à otimização de inferência e mostram as técnicas de otimização suportadas.


**Modelos Llama compatíveis**  

| Nome do modelo | Formatos de dados aceitos para quantização | Permite decodificação especulativa | Permite carregamento rápido de modelos | Bibliotecas usadas para compilação | 
| --- | --- | --- | --- | --- | 
| Meta Llama 2 13B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sim | Sim | AWSNeurônio<br />TensorRT-LLM | 
| Llama 2 13B Chat da Meta | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sim | Sim | AWSNeurônio<br />TensorRT-LLM | 
| Meta Llama 2 70B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sim | Sim | AWSNeurônio<br />TensorRT-LLM | 
| Llama 2 70B Chat da Meta | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sim | Sim | AWSNeurônio<br />TensorRT-LLM | 
| Meta Llama 2 7B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sim | Sim | AWSNeurônio<br />TensorRT-LLM | 
| Llama 2 7B Chat da Meta | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sim | Sim | AWSNeurônio<br />TensorRT-LLM | 
| Llama 3 70B da Meta | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sim | Sim | AWSNeurônio<br />TensorRT-LLM | 
| Llama 3 70B Instruct da Meta | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sim | Sim | AWSNeurônio<br />TensorRT-LLM | 
| Llama 3 8B da Meta | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sim | Sim | AWSNeurônio<br />TensorRT-LLM | 
| Llama 3 8B Instruct da Meta | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sim | Sim | AWSNeurônio<br />TensorRT-LLM | 
| Code Llama 13B da Meta | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sim | Sim | TensorRT-LLM | 
| Code Llama 13B Instruct da Meta | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sim | Sim | TensorRT-LLM | 
| Code Llama 13B Python da Meta | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sim | Sim | TensorRT-LLM | 
| Code Llama 34B da Meta | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sim | Sim | TensorRT-LLM | 
| Code Llama 34B Instruct da Meta  | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sim | Sim | TensorRT-LLM | 
| Code Llama 34B Python da Meta | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sim | Sim | TensorRT-LLM | 
| Code Llama 70B da Meta | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sim | Sim | TensorRT-LLM | 
| Code Llama 70B Instruct da Meta | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sim | Sim | TensorRT-LLM | 
| Code Llama 70B Python da Meta | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sim | Sim | TensorRT-LLM | 
| Code Llama 7B da Meta | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sim | Sim | TensorRT-LLM | 
| Code Llama 7B Instruct da Meta | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sim | Sim | TensorRT-LLM | 
| Code Llama 7B Python da Meta | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sim | Sim | TensorRT-LLM | 
| Llama 2 13B Neuron da Meta | Nenhum | Não | Não | AWSNeurônio | 
| Llama 2 13B Chat Neuron da Meta | Nenhum | Não | Não | AWSNeurônio | 
| Llama 2 70B Neuron da Meta | Nenhum | Não | Não | AWSNeurônio | 
| Llama 2 70B Chat Neuron da Meta | Nenhum | Não | Não | AWSNeurônio | 
| Llama 2 7B Neuron da Meta | Nenhum | Não | Não | AWSNeurônio | 
| Llama 2 7B Chat Neuron da Meta | Nenhum | Não | Não | AWSNeurônio | 
| Llama 3 70B Neuron da Meta | Nenhum | Não | Não | AWSNeurônio | 
| Llama 3 70B Instruct Neuron da Meta | Nenhum | Não | Não | AWSNeurônio | 
| Llama 3 8B Neuron da Meta | Nenhum | Não | Não | AWSNeurônio | 
| Llama 3 8B Instruct Neuron da Meta | Nenhum | Não | Não | AWSNeurônio | 
| Code Llama 70B Neuron da Meta | Nenhum | Não | Não | AWSNeurônio | 
| Code Llama 7B Neuron da Meta | Nenhum | Não | Não | AWSNeurônio | 
| Code Llama 7B Python Neuron da Meta | Nenhum | Não | Não | AWSNeurônio | 
| Metal Llama 3.1 405B FP8 | Nenhum | Sim | Sim | Nenhum | 
| Instrução Meta Llama 3.1 405B FP8 | Nenhum | Sim | Sim | Nenhum | 
| Llama 3.1 70B da Meta | INT4-AWQ<br />FP8 | Sim | Sim | Nenhum | 
| Llama 3.1 70B Instruct da Meta | INT4-AWQ<br />FP8 | Sim | Sim | Nenhum | 
| Llama 3.1 8B da Meta | INT4-AWQ<br />FP8 | Sim | Sim | Nenhum | 
| Llama 3.1 8B Instruct da Meta | INT4-AWQ<br />FP8 | Sim | Sim | Nenhum | 
| Llama 3.1 70B Neuron da Meta | Nenhum | Não | Não | AWSNeurônio | 
| Llama 3.1 70B Instruct Neuron da Meta | Nenhum | Não | Não | AWSNeurônio | 
| Llama 3 1 8B Neuron da Meta | Nenhum | Não | Não | AWSNeurônio | 
| Llama 3.1 8B Instruct Neuron da Meta | Nenhum | Não | Não | AWSNeurônio | 


**Modelos Mistral compatíveis**  

| Nome do modelo | Formatos de dados aceitos para quantização | Permite decodificação especulativa | Permite carregamento rápido de modelos | Bibliotecas usadas para compilação | 
| --- | --- | --- | --- | --- | 
| Mistral 7B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sim | Sim | AWSNeurônio<br />TensorRT-LLM | 
| Mistral 7B Instruct | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sim | Sim | AWSNeurônio<br />TensorRT-LLM | 
| Mistral 7B Neuron | Nenhum | Não | Não | AWSNeurônio | 
| Mistral 7B Instruct Neuron | Nenhum | Não | Não | AWSNeurônio | 


**Modelos Mixtral compatíveis**  

| Nome do modelo | Formatos de dados aceitos para quantização | Permite decodificação especulativa | Permite carregamento rápido de modelos | Bibliotecas usadas para compilação | 
| --- | --- | --- | --- | --- | 
| Mixtral-8x22B-Instruct-v0.1 | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sim | Sim | TensorRT-LLM | 
| Mixtral-8x22B V1 | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sim | Sim | TensorRT-LLM | 
| Mixtral 8x7B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sim | Sim | TensorRT-LLM | 
| Mixtral 8x7B Instruct | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Sim | Sim | TensorRT-LLM | 


**Arquiteturas de modelo suportadas e tipo EAGLE**  

|  Nome da arquitetura do modelo  |  Tipo EAGLE  | 
| --- | --- | 
| LlamaForCausalLM | ÁGUIA 3 | 
| Rainha 3 LM ForCausal | ÁGUIA 3 | 
| Rainha 3 LM NextForCausal | ÁGUIA 2 | 
| Rainha 3 LM MoeForCausal  | ÁGUIA 3 | 
| Rainha 2 LM ForCausal | ÁGUIA 3 | 
| GptOssForCausalLM | ÁGUIA 3 | 