Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Riferimento sui modelli supportati
Le tabelle seguenti mostrano i modelli per i quali l' SageMaker IA supporta l'ottimizzazione dell'inferenza e le tecniche di ottimizzazione supportate.
| Nome modello | Formati di dati supportati per la quantizzazione | Supporta la decodifica speculativa | Supporta il caricamento rapido dei modelli | Librerie utilizzate per la compilazione |
|---|---|---|---|---|
| Meta Llama 2 13B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
AWSNeurone TensorRT-LLM |
| Meta Llama 2 13B Chat |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
AWSNeurone TensorRT-LLM |
| Meta Llama 2 70B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
AWSNeurone TensorRT-LLM |
| Meta Llama 2 70B Chat |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
AWSNeurone TensorRT-LLM |
| Meta Llama 2 7B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
AWSNeurone TensorRT-LLM |
| Meta Llama 2 7B Chat |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
AWSNeurone TensorRT-LLM |
| Meta Llama 3 70B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
AWSNeurone TensorRT-LLM |
| Meta Llama 3 70B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
AWSNeurone TensorRT-LLM |
| Meta Llama 3 8B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
AWSNeurone TensorRT-LLM |
| Meta Llama 3 8B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
AWSNeurone TensorRT-LLM |
| Meta Code Llama 13B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
TensorRT-LLM |
| Meta Code Llama 13B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
TensorRT-LLM |
| Meta Code Llama 13B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
TensorRT-LLM |
| Meta Code Llama 34B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
TensorRT-LLM |
| Meta Code Llama 34B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
TensorRT-LLM |
| Meta Code Llama 34B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
TensorRT-LLM |
| Meta Code Llama 70B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
TensorRT-LLM |
| Meta Code Llama 70B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
TensorRT-LLM |
| Meta Code Llama 70B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
TensorRT-LLM |
| Meta Code Llama 7B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
TensorRT-LLM |
| Meta Code Llama 7B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
TensorRT-LLM |
| Meta Code Llama 7B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
TensorRT-LLM |
| Meta Llama 2 13B Neuron | Nessuno | No | No |
AWSNeurone |
| Meta Llama 2 13B Chat Neuron | Nessuno | No | No |
AWSNeurone |
| Meta Llama 2 70B Neuron | Nessuno | No | No |
AWSNeurone |
| Meta Llama 2 70B Chat Neuron | Nessuno | No | No |
AWSNeurone |
| Meta Llama 2 7B Neuron | Nessuno | No | No |
AWSNeurone |
| Meta Llama 2 7B Chat Neuron | Nessuno | No | No |
AWSNeurone |
| Meta Llama 3 70B Neuron | Nessuno | No | No |
AWSNeurone |
| Meta Llama 3 70B Instruct Neuron | Nessuno | No | No |
AWSNeurone |
| Meta Llama 3 8B Neuron | Nessuno | No | No |
AWSNeurone |
| Meta Llama 3 8B Instruct Neuron | Nessuno | No | No |
AWSNeurone |
| Meta Code Llama 70B Neuron | Nessuno | No | No |
AWSNeurone |
| Meta Code Llama 7B Neuron | Nessuno | No | No |
AWSNeurone |
| Meta Code Llama 7B Python Neuron | Nessuno | No | No |
AWSNeurone |
| Meta Llama 3.1 405B FP8 | Nessuno | Sì | Sì |
Nessuno |
| Istruzioni per Meta Llama 3.1 405B FP8 | Nessuno | Sì | Sì |
Nessuno |
| Meta Llama 3.1 70B |
INT4-FAQ FP8 |
Sì | Sì |
Nessuno |
| Meta Llama 3.1 70B Instruct |
INT4-AWQ FP8 |
Sì | Sì |
Nessuno |
| Meta Llama 3.1 8B |
INT4-AWQ FP8 |
Sì | Sì |
Nessuno |
| Meta Llama 3.1 8B Instruct |
INT4-AWQ FP8 |
Sì | Sì |
Nessuno |
| Meta Llama 3.1 70B Neuron | Nessuno | No | No |
AWSNeurone |
| Meta Llama 3.1 70B Instruct Neuron | Nessuno | No | No |
AWSNeurone |
| Meta Llama 3 1 8B Neuron | Nessuno | No | No |
AWSNeurone |
| Meta Llama 3.1 8B Instruct Neuron | Nessuno | No | No |
AWSNeurone |
| Nome modello | Formati di dati supportati per la quantizzazione | Supporta la decodifica speculativa | Supporta il caricamento rapido dei modelli | Librerie utilizzate per la compilazione |
|---|---|---|---|---|
| Mistral 7B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
AWSNeurone TensorRT-LLM |
| Mistral 7B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
AWSNeurone TensorRT-LLM |
| Mistral 7B Neuron | Nessuno | No | No |
AWSNeurone |
| Mistral 7B Instruct Neuron | Nessuno | No | No |
AWSNeurone |
| Nome modello | Formati di dati supportati per la quantizzazione | Supporta la decodifica speculativa | Supporta il caricamento rapido dei modelli | Librerie utilizzate per la compilazione |
|---|---|---|---|---|
| Mixtral-8x22B-Instruct-v0.1 |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
TensorRT-LLM |
| Mixtral-8x22B V1 |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
TensorRT-LLM |
| Mixtral 8x7B |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
TensorRT-LLM |
| Mixtral 8x7B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Sì | Sì |
TensorRT-LLM |
|
Nome dell'architettura del modello |
Tipo EAGLE |
|---|---|
|
LlamaForCausalLM |
AQUILA 3 |
|
ForCausalWen 3 KM |
AQUILA 3 |
|
NextForCausalWen 3 KM |
AQUILA 2 |
|
MoeForCausalWen 3 KM |
AQUILA 3 |
|
ForCausalWen 2 KM |
AQUILA 3 |
|
GptOssForCausalLM |
AQUILA 3 |