

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Riferimento sui modelli supportati
<a name="optimization-supported-models"></a>

Le tabelle seguenti mostrano i modelli per i quali l' SageMaker IA supporta l'ottimizzazione dell'inferenza e le tecniche di ottimizzazione supportate.


**Modelli Llama supportati**  

| Nome modello | Formati di dati supportati per la quantizzazione | Supporta la decodifica speculativa | Supporta il caricamento rapido dei modelli | Librerie utilizzate per la compilazione | 
| --- | --- | --- | --- | --- | 
| Meta Llama 2 13B |  INT4-AWQ INT8-SmoothQuant FP8  | Sì  | Sì |  AWSNeurone TensorRT-LLM  | 
| Meta Llama 2 13B Chat |  INT4-AWQ INT8-SmoothQuant FP8  | Sì  | Sì |  AWSNeurone TensorRT-LLM  | 
| Meta Llama 2 70B |  INT4-AWQ INT8-SmoothQuant FP8  | Sì  | Sì |  AWSNeurone TensorRT-LLM  | 
| Meta Llama 2 70B Chat |  INT4-AWQ INT8-SmoothQuant FP8  | Sì  | Sì |  AWSNeurone TensorRT-LLM  | 
| Meta Llama 2 7B |  INT4-AWQ INT8-SmoothQuant FP8  | Sì  | Sì |  AWSNeurone TensorRT-LLM  | 
| Meta Llama 2 7B Chat |  INT4-AWQ INT8-SmoothQuant FP8  | Sì  | Sì |  AWSNeurone TensorRT-LLM  | 
| Meta Llama 3 70B |  INT4-AWQ INT8-SmoothQuant FP8  | Sì  | Sì |  AWSNeurone TensorRT-LLM  | 
| Meta Llama 3 70B Instruct |  INT4-AWQ INT8-SmoothQuant FP8  | Sì  | Sì |  AWSNeurone TensorRT-LLM  | 
| Meta Llama 3 8B |  INT4-AWQ INT8-SmoothQuant FP8  | Sì  | Sì |  AWSNeurone TensorRT-LLM  | 
| Meta Llama 3 8B Instruct |  INT4-AWQ INT8-SmoothQuant FP8  | Sì  | Sì |  AWSNeurone TensorRT-LLM  | 
| Meta Code Llama 13B |  INT4-AWQ INT8-SmoothQuant FP8  | Sì  | Sì |  TensorRT-LLM  | 
| Meta Code Llama 13B Instruct |  INT4-AWQ INT8-SmoothQuant FP8  | Sì  | Sì |  TensorRT-LLM  | 
| Meta Code Llama 13B Python |  INT4-AWQ INT8-SmoothQuant FP8  | Sì  | Sì |  TensorRT-LLM  | 
| Meta Code Llama 34B |  INT4-AWQ INT8-SmoothQuant FP8  | Sì  | Sì |  TensorRT-LLM  | 
| Meta Code Llama 34B Instruct  |  INT4-AWQ INT8-SmoothQuant FP8  | Sì  | Sì |  TensorRT-LLM  | 
| Meta Code Llama 34B Python |  INT4-AWQ INT8-SmoothQuant FP8  | Sì  | Sì |  TensorRT-LLM  | 
| Meta Code Llama 70B |  INT4-AWQ INT8-SmoothQuant FP8  | Sì  | Sì |  TensorRT-LLM  | 
| Meta Code Llama 70B Instruct |  INT4-AWQ INT8-SmoothQuant FP8  | Sì  | Sì |  TensorRT-LLM  | 
| Meta Code Llama 70B Python |  INT4-AWQ INT8-SmoothQuant FP8  | Sì  | Sì |  TensorRT-LLM  | 
| Meta Code Llama 7B |  INT4-AWQ INT8-SmoothQuant FP8  | Sì  | Sì |  TensorRT-LLM  | 
| Meta Code Llama 7B Instruct |  INT4-AWQ INT8-SmoothQuant FP8  | Sì  | Sì |  TensorRT-LLM  | 
| Meta Code Llama 7B Python |  INT4-AWQ INT8-SmoothQuant FP8  | Sì  | Sì |  TensorRT-LLM  | 
| Meta Llama 2 13B Neuron | Nessuno | No | No |  AWSNeurone  | 
| Meta Llama 2 13B Chat Neuron | Nessuno | No | No |  AWSNeurone  | 
| Meta Llama 2 70B Neuron | Nessuno | No | No |  AWSNeurone  | 
| Meta Llama 2 70B Chat Neuron | Nessuno | No | No |  AWSNeurone  | 
| Meta Llama 2 7B Neuron | Nessuno | No | No |  AWSNeurone  | 
| Meta Llama 2 7B Chat Neuron | Nessuno | No | No |  AWSNeurone  | 
| Meta Llama 3 70B Neuron | Nessuno | No | No |  AWSNeurone  | 
| Meta Llama 3 70B Instruct Neuron | Nessuno | No | No |  AWSNeurone  | 
| Meta Llama 3 8B Neuron | Nessuno | No | No |  AWSNeurone  | 
| Meta Llama 3 8B Instruct Neuron | Nessuno | No | No |  AWSNeurone  | 
| Meta Code Llama 70B Neuron | Nessuno | No | No |  AWSNeurone  | 
| Meta Code Llama 7B Neuron | Nessuno | No | No |  AWSNeurone  | 
| Meta Code Llama 7B Python Neuron | Nessuno | No | No |  AWSNeurone  | 
| Meta Llama 3.1 405B FP8 | Nessuno | Sì  | Sì |  Nessuno  | 
| Istruzioni per Meta Llama 3.1 405B FP8 | Nessuno | Sì  | Sì |  Nessuno  | 
| Meta Llama 3.1 70B |  INT4-FAQ FP8  | Sì  | Sì |  Nessuno  | 
| Meta Llama 3.1 70B Instruct |  INT4-AWQ FP8  | Sì  | Sì |  Nessuno  | 
| Meta Llama 3.1 8B |  INT4-AWQ FP8  | Sì  | Sì |  Nessuno  | 
| Meta Llama 3.1 8B Instruct |  INT4-AWQ FP8  | Sì  | Sì |  Nessuno  | 
| Meta Llama 3.1 70B Neuron | Nessuno | No | No |  AWSNeurone  | 
| Meta Llama 3.1 70B Instruct Neuron | Nessuno | No | No |  AWSNeurone  | 
| Meta Llama 3 1 8B Neuron | Nessuno | No | No |  AWSNeurone  | 
| Meta Llama 3.1 8B Instruct Neuron | Nessuno | No | No |  AWSNeurone  | 


**Modelli Mistral supportati**  

| Nome modello | Formati di dati supportati per la quantizzazione | Supporta la decodifica speculativa | Supporta il caricamento rapido dei modelli | Librerie utilizzate per la compilazione | 
| --- | --- | --- | --- | --- | 
| Mistral 7B |  INT4-AWQ INT8-SmoothQuant FP8  | Sì  | Sì |  AWSNeurone TensorRT-LLM  | 
| Mistral 7B Instruct |  INT4-AWQ INT8-SmoothQuant FP8  | Sì  | Sì |  AWSNeurone TensorRT-LLM  | 
| Mistral 7B Neuron | Nessuno | No | No |  AWSNeurone  | 
| Mistral 7B Instruct Neuron | Nessuno | No | No |  AWSNeurone  | 


**Modelli Mixtral supportati**  

| Nome modello | Formati di dati supportati per la quantizzazione | Supporta la decodifica speculativa | Supporta il caricamento rapido dei modelli | Librerie utilizzate per la compilazione | 
| --- | --- | --- | --- | --- | 
| Mixtral-8x22B-Instruct-v0.1 |  INT4-AWQ INT8-SmoothQuant FP8  | Sì  | Sì |  TensorRT-LLM  | 
| Mixtral-8x22B V1 |  INT4-AWQ INT8-SmoothQuant FP8  | Sì  | Sì |  TensorRT-LLM  | 
| Mixtral 8x7B |  INT4-AWQ INT8-SmoothQuant FP8  | Sì  | Sì |  TensorRT-LLM  | 
| Mixtral 8x7B Instruct |  INT4-AWQ INT8-SmoothQuant FP8  | Sì  | Sì |  TensorRT-LLM  | 


**Architetture di modello supportate e tipo EAGLE**  

|  Nome dell'architettura del modello  |  Tipo EAGLE  | 
| --- | --- | 
|  LlamaForCausalLM  |  AQUILA 3  | 
|  ForCausalWen 3 KM  |  AQUILA 3  | 
|  NextForCausalWen 3 KM  |  AQUILA 2  | 
|  MoeForCausalWen 3 KM   |  AQUILA 3  | 
|  ForCausalWen 2 KM  |  AQUILA 3  | 
|  GptOssForCausalLM  |  AQUILA 3  | 