Referenz zu unterstützten Modellen

Die folgenden Tabellen zeigen die Modelle, für die SageMaker KI die Inferenzoptimierung unterstützt, und sie zeigen die unterstützten Optimierungstechniken.

Unterstützte Llama-Modelle
Modellname	Unterstützte Datenformate für die Quantisierung	Unterstützt spekulative Dekodierung	Unterstützt schnelles Laden von Modellen	Für die Kompilierung verwendete Bibliotheken
Meta Llama 2 13B	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	AWSNeuron TensorRT-LLM
Meta Llama 2 13B Chat	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	AWSNeuron TensorRT-LLM
Meta Llama 2 70B	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	AWSNeuron TensorRT-LLM
Meta Llama 2 70B Chat	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	AWSNeuron TensorRT-LLM
Meta Lama 2 7B	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	AWSNeuron TensorRT-LLM
Meta Llama 2 7B Chat	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	AWSNeuron TensorRT-LLM
Meta Lama 3 70B	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	AWSNeuron TensorRT-LLM
Meta Llama 3 70B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	AWSNeuron TensorRT-LLM
Meta Lama 3 8B	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	AWSNeuron TensorRT-LLM
Meta Llama 3 8B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	AWSNeuron TensorRT-LLM
Meta Code Llama 13B	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	TensorRT-LLM
Meta Code Llama 13B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	TensorRT-LLM
Meta Code Llama 13B Python	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	TensorRT-LLM
Meta Code Llama 34B	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	TensorRT-LLM
Meta Code Llama 34B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	TensorRT-LLM
Meta Code Llama 34B Python	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	TensorRT-LLM
Meta Code Llama 70B	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	TensorRT-LLM
Meta Code Llama 70B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	TensorRT-LLM
Meta Code Llama 70B Python	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	TensorRT-LLM
Meta Code Llama 7B	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	TensorRT-LLM
Meta Code Llama 7B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	TensorRT-LLM
Meta Code Llama 7B Python	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	TensorRT-LLM
Meta Llama 2 13B Neuron	Keine	Nein	Nein	AWSNeuron
Meta Llama 2 13B Chat Neuron	Keine	Nein	Nein	AWSNeuron
Meta Llama 2 70B Neuron	Keine	Nein	Nein	AWSNeuron
Meta Llama 2 70B Chat Neuron	Keine	Nein	Nein	AWSNeuron
Meta Llama 2 7B Neuron	Keine	Nein	Nein	AWSNeuron
Meta Llama 2 7B Chat Neuron	Keine	Nein	Nein	AWSNeuron
Meta Llama 3 70B Neuron	Keine	Nein	Nein	AWSNeuron
Meta Llama 3 70B Instruct Neuron	Keine	Nein	Nein	AWSNeuron
Meta Llama 3 8B Neuron	Keine	Nein	Nein	AWSNeuron
Meta Llama 3 8B Instruct Neuron	Keine	Nein	Nein	AWSNeuron
Meta Code Llama 70B Neuron	Keine	Nein	Nein	AWSNeuron
Meta Code Llama 7B Neuron	Keine	Nein	Nein	AWSNeuron
Meta Code Llama 7B Python Neuron	Keine	Nein	Nein	AWSNeuron
Meta Lama 3.1 405B FP8	Keine	Ja	Ja	Keine
Meta Llama 3.1 405B Einweisen FP8	Keine	Ja	Ja	Keine
Meta Lama 3.1 70B	INT4-AWQ FP8	Ja	Ja	Keine
Meta Llama 3.1 70B Instruct	INT4-AWQ FP8	Ja	Ja	Keine
Meta Lama 3.1 8B	INT4-AWQ FP8	Ja	Ja	Keine
Meta Llama 3.1 8B Instruct	INT4-AWQ FP8	Ja	Ja	Keine
Meta Llama 3.1 70B Neuron	Keine	Nein	Nein	AWSNeuron
Meta Llama 3.1 70B Instruct Neuron	Keine	Nein	Nein	AWSNeuron
Meta Llama 3 1 8B Neuron	Keine	Nein	Nein	AWSNeuron
Meta Llama 3.1 8B Instruct Neuron	Keine	Nein	Nein	AWSNeuron

Unterstützte Mistral-Modelle
Modellname	Unterstützte Datenformate für die Quantisierung	Unterstützt spekulative Dekodierung	Unterstützt schnelles Laden von Modellen	Für die Kompilierung verwendete Bibliotheken
Mistral 7B	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	AWSNeuron TensorRT-LLM
Mistral 7B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	AWSNeuron TensorRT-LLM
Mistral 7B Neuron	Keine	Nein	Nein	AWSNeuron
Mistral 7B Instruct Neuron	Keine	Nein	Nein	AWSNeuron

Unterstützte Mixtral-Modelle
Modellname	Unterstützte Datenformate für die Quantisierung	Unterstützt spekulative Dekodierung	Unterstützt schnelles Laden von Modellen	Für die Kompilierung verwendete Bibliotheken
Mixtral-8x22B-Instruct-v0.1	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	TensorRT-LLM
Mixtral-8x22B V1	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	TensorRT-LLM
Mixtral 8x7B	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	TensorRT-LLM
Mixtral 8x7B Instruct	INT4-AWQ INT8-SmoothQuant FP8	Ja	Ja	TensorRT-LLM

Unterstützte Modellarchitekturen und EAGLE-Typ
Name der Modellarchitektur	Typ EAGLE
LlamaForCausalLM	ADLER 3
Frau 3 LM ForCausal	ADLER 3
Frau 3 LM NextForCausal	ADLER 2
Frau 3 LM MoeForCausal	ADLER 3
Frau 2 LM ForCausal	ADLER 3
GptOssForCausalLM	ADLER 3

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Bewertung der Leistung

Optionen zur Bewertung Ihres Modells