Riferimento sui modelli supportati

Le tabelle seguenti mostrano i modelli per i quali l' SageMaker IA supporta l'ottimizzazione dell'inferenza e le tecniche di ottimizzazione supportate.

Modelli Llama supportati
Nome modello	Formati di dati supportati per la quantizzazione	Supporta la decodifica speculativa	Supporta il caricamento rapido dei modelli	Librerie utilizzate per la compilazione
Meta Llama 2 13B	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	AWSNeurone TensorRT-LLM
Meta Llama 2 13B Chat	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	AWSNeurone TensorRT-LLM
Meta Llama 2 70B	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	AWSNeurone TensorRT-LLM
Meta Llama 2 70B Chat	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	AWSNeurone TensorRT-LLM
Meta Llama 2 7B	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	AWSNeurone TensorRT-LLM
Meta Llama 2 7B Chat	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	AWSNeurone TensorRT-LLM
Meta Llama 3 70B	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	AWSNeurone TensorRT-LLM
Meta Llama 3 70B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	AWSNeurone TensorRT-LLM
Meta Llama 3 8B	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	AWSNeurone TensorRT-LLM
Meta Llama 3 8B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	AWSNeurone TensorRT-LLM
Meta Code Llama 13B	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	TensorRT-LLM
Meta Code Llama 13B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	TensorRT-LLM
Meta Code Llama 13B Python	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	TensorRT-LLM
Meta Code Llama 34B	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	TensorRT-LLM
Meta Code Llama 34B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	TensorRT-LLM
Meta Code Llama 34B Python	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	TensorRT-LLM
Meta Code Llama 70B	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	TensorRT-LLM
Meta Code Llama 70B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	TensorRT-LLM
Meta Code Llama 70B Python	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	TensorRT-LLM
Meta Code Llama 7B	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	TensorRT-LLM
Meta Code Llama 7B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	TensorRT-LLM
Meta Code Llama 7B Python	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	TensorRT-LLM
Meta Llama 2 13B Neuron	Nessuno	No	No	AWSNeurone
Meta Llama 2 13B Chat Neuron	Nessuno	No	No	AWSNeurone
Meta Llama 2 70B Neuron	Nessuno	No	No	AWSNeurone
Meta Llama 2 70B Chat Neuron	Nessuno	No	No	AWSNeurone
Meta Llama 2 7B Neuron	Nessuno	No	No	AWSNeurone
Meta Llama 2 7B Chat Neuron	Nessuno	No	No	AWSNeurone
Meta Llama 3 70B Neuron	Nessuno	No	No	AWSNeurone
Meta Llama 3 70B Instruct Neuron	Nessuno	No	No	AWSNeurone
Meta Llama 3 8B Neuron	Nessuno	No	No	AWSNeurone
Meta Llama 3 8B Instruct Neuron	Nessuno	No	No	AWSNeurone
Meta Code Llama 70B Neuron	Nessuno	No	No	AWSNeurone
Meta Code Llama 7B Neuron	Nessuno	No	No	AWSNeurone
Meta Code Llama 7B Python Neuron	Nessuno	No	No	AWSNeurone
Meta Llama 3.1 405B FP8	Nessuno	Sì	Sì	Nessuno
Istruzioni per Meta Llama 3.1 405B FP8	Nessuno	Sì	Sì	Nessuno
Meta Llama 3.1 70B	INT4-FAQ FP8	Sì	Sì	Nessuno
Meta Llama 3.1 70B Instruct	INT4-AWQ FP8	Sì	Sì	Nessuno
Meta Llama 3.1 8B	INT4-AWQ FP8	Sì	Sì	Nessuno
Meta Llama 3.1 8B Instruct	INT4-AWQ FP8	Sì	Sì	Nessuno
Meta Llama 3.1 70B Neuron	Nessuno	No	No	AWSNeurone
Meta Llama 3.1 70B Instruct Neuron	Nessuno	No	No	AWSNeurone
Meta Llama 3 1 8B Neuron	Nessuno	No	No	AWSNeurone
Meta Llama 3.1 8B Instruct Neuron	Nessuno	No	No	AWSNeurone

Modelli Mistral supportati
Nome modello	Formati di dati supportati per la quantizzazione	Supporta la decodifica speculativa	Supporta il caricamento rapido dei modelli	Librerie utilizzate per la compilazione
Mistral 7B	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	AWSNeurone TensorRT-LLM
Mistral 7B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	AWSNeurone TensorRT-LLM
Mistral 7B Neuron	Nessuno	No	No	AWSNeurone
Mistral 7B Instruct Neuron	Nessuno	No	No	AWSNeurone

Modelli Mixtral supportati
Nome modello	Formati di dati supportati per la quantizzazione	Supporta la decodifica speculativa	Supporta il caricamento rapido dei modelli	Librerie utilizzate per la compilazione
Mixtral-8x22B-Instruct-v0.1	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	TensorRT-LLM
Mixtral-8x22B V1	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	TensorRT-LLM
Mixtral 8x7B	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	TensorRT-LLM
Mixtral 8x7B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Sì	Sì	TensorRT-LLM

Architetture di modello supportate e tipo EAGLE
Nome dell'architettura del modello	Tipo EAGLE
LlamaForCausalLM	AQUILA 3
ForCausalWen 3 KM	AQUILA 3
NextForCausalWen 3 KM	AQUILA 2
MoeForCausalWen 3 KM	AQUILA 3
ForCausalWen 2 KM	AQUILA 3
GptOssForCausalLM	AQUILA 3

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Valuta le prestazioni

Opzioni per la valutazione del modello