Riferimento sui modelli supportati - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Riferimento sui modelli supportati

Le tabelle seguenti mostrano i modelli per i quali l' SageMaker IA supporta l'ottimizzazione dell'inferenza e le tecniche di ottimizzazione supportate.

Modelli Llama supportati
Nome modello Formati di dati supportati per la quantizzazione Supporta la decodifica speculativa Supporta il caricamento rapido dei modelli Librerie utilizzate per la compilazione
Meta Llama 2 13B

INT4-AWQ

INT8-SmoothQuant

FP8

AWSNeurone

TensorRT-LLM

Meta Llama 2 13B Chat

INT4-AWQ

INT8-SmoothQuant

FP8

AWSNeurone

TensorRT-LLM

Meta Llama 2 70B

INT4-AWQ

INT8-SmoothQuant

FP8

AWSNeurone

TensorRT-LLM

Meta Llama 2 70B Chat

INT4-AWQ

INT8-SmoothQuant

FP8

AWSNeurone

TensorRT-LLM

Meta Llama 2 7B

INT4-AWQ

INT8-SmoothQuant

FP8

AWSNeurone

TensorRT-LLM

Meta Llama 2 7B Chat

INT4-AWQ

INT8-SmoothQuant

FP8

AWSNeurone

TensorRT-LLM

Meta Llama 3 70B

INT4-AWQ

INT8-SmoothQuant

FP8

AWSNeurone

TensorRT-LLM

Meta Llama 3 70B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

AWSNeurone

TensorRT-LLM

Meta Llama 3 8B

INT4-AWQ

INT8-SmoothQuant

FP8

AWSNeurone

TensorRT-LLM

Meta Llama 3 8B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

AWSNeurone

TensorRT-LLM

Meta Code Llama 13B

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Meta Code Llama 13B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Meta Code Llama 13B Python

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Meta Code Llama 34B

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Meta Code Llama 34B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Meta Code Llama 34B Python

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Meta Code Llama 70B

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Meta Code Llama 70B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Meta Code Llama 70B Python

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Meta Code Llama 7B

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Meta Code Llama 7B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Meta Code Llama 7B Python

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Meta Llama 2 13B Neuron Nessuno No No

AWSNeurone

Meta Llama 2 13B Chat Neuron Nessuno No No

AWSNeurone

Meta Llama 2 70B Neuron Nessuno No No

AWSNeurone

Meta Llama 2 70B Chat Neuron Nessuno No No

AWSNeurone

Meta Llama 2 7B Neuron Nessuno No No

AWSNeurone

Meta Llama 2 7B Chat Neuron Nessuno No No

AWSNeurone

Meta Llama 3 70B Neuron Nessuno No No

AWSNeurone

Meta Llama 3 70B Instruct Neuron Nessuno No No

AWSNeurone

Meta Llama 3 8B Neuron Nessuno No No

AWSNeurone

Meta Llama 3 8B Instruct Neuron Nessuno No No

AWSNeurone

Meta Code Llama 70B Neuron Nessuno No No

AWSNeurone

Meta Code Llama 7B Neuron Nessuno No No

AWSNeurone

Meta Code Llama 7B Python Neuron Nessuno No No

AWSNeurone

Meta Llama 3.1 405B FP8 Nessuno

Nessuno

Istruzioni per Meta Llama 3.1 405B FP8 Nessuno

Nessuno

Meta Llama 3.1 70B

INT4-FAQ

FP8

Nessuno

Meta Llama 3.1 70B Instruct

INT4-AWQ

FP8

Nessuno

Meta Llama 3.1 8B

INT4-AWQ

FP8

Nessuno

Meta Llama 3.1 8B Instruct

INT4-AWQ

FP8

Nessuno

Meta Llama 3.1 70B Neuron Nessuno No No

AWSNeurone

Meta Llama 3.1 70B Instruct Neuron Nessuno No No

AWSNeurone

Meta Llama 3 1 8B Neuron Nessuno No No

AWSNeurone

Meta Llama 3.1 8B Instruct Neuron Nessuno No No

AWSNeurone

Modelli Mistral supportati
Nome modello Formati di dati supportati per la quantizzazione Supporta la decodifica speculativa Supporta il caricamento rapido dei modelli Librerie utilizzate per la compilazione
Mistral 7B

INT4-AWQ

INT8-SmoothQuant

FP8

AWSNeurone

TensorRT-LLM

Mistral 7B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

AWSNeurone

TensorRT-LLM

Mistral 7B Neuron Nessuno No No

AWSNeurone

Mistral 7B Instruct Neuron Nessuno No No

AWSNeurone

Modelli Mixtral supportati
Nome modello Formati di dati supportati per la quantizzazione Supporta la decodifica speculativa Supporta il caricamento rapido dei modelli Librerie utilizzate per la compilazione
Mixtral-8x22B-Instruct-v0.1

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Mixtral-8x22B V1

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Mixtral 8x7B

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Mixtral 8x7B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Architetture di modello supportate e tipo EAGLE

Nome dell'architettura del modello

Tipo EAGLE

LlamaForCausalLM

AQUILA 3

ForCausalWen 3 KM

AQUILA 3

NextForCausalWen 3 KM

AQUILA 2

MoeForCausalWen 3 KM 

AQUILA 3

ForCausalWen 2 KM

AQUILA 3

GptOssForCausalLM

AQUILA 3