Referenz zu unterstützten Modellen - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Referenz zu unterstützten Modellen

Die folgenden Tabellen zeigen die Modelle, für die SageMaker KI die Inferenzoptimierung unterstützt, und sie zeigen die unterstützten Optimierungstechniken.

Unterstützte Llama-Modelle
Modellname Unterstützte Datenformate für die Quantisierung Unterstützt spekulative Dekodierung Unterstützt schnelles Laden von Modellen Für die Kompilierung verwendete Bibliotheken
Meta Llama 2 13B

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

AWSNeuron

TensorRT-LLM

Meta Llama 2 13B Chat

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

AWSNeuron

TensorRT-LLM

Meta Llama 2 70B

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

AWSNeuron

TensorRT-LLM

Meta Llama 2 70B Chat

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

AWSNeuron

TensorRT-LLM

Meta Lama 2 7B

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

AWSNeuron

TensorRT-LLM

Meta Llama 2 7B Chat

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

AWSNeuron

TensorRT-LLM

Meta Lama 3 70B

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

AWSNeuron

TensorRT-LLM

Meta Llama 3 70B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

AWSNeuron

TensorRT-LLM

Meta Lama 3 8B

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

AWSNeuron

TensorRT-LLM

Meta Llama 3 8B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

AWSNeuron

TensorRT-LLM

Meta Code Llama 13B

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

TensorRT-LLM

Meta Code Llama 13B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

TensorRT-LLM

Meta Code Llama 13B Python

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

TensorRT-LLM

Meta Code Llama 34B

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

TensorRT-LLM

Meta Code Llama 34B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

TensorRT-LLM

Meta Code Llama 34B Python

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

TensorRT-LLM

Meta Code Llama 70B

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

TensorRT-LLM

Meta Code Llama 70B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

TensorRT-LLM

Meta Code Llama 70B Python

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

TensorRT-LLM

Meta Code Llama 7B

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

TensorRT-LLM

Meta Code Llama 7B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

TensorRT-LLM

Meta Code Llama 7B Python

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

TensorRT-LLM

Meta Llama 2 13B Neuron Keine Nein Nein

AWSNeuron

Meta Llama 2 13B Chat Neuron Keine Nein Nein

AWSNeuron

Meta Llama 2 70B Neuron Keine Nein Nein

AWSNeuron

Meta Llama 2 70B Chat Neuron Keine Nein Nein

AWSNeuron

Meta Llama 2 7B Neuron Keine Nein Nein

AWSNeuron

Meta Llama 2 7B Chat Neuron Keine Nein Nein

AWSNeuron

Meta Llama 3 70B Neuron Keine Nein Nein

AWSNeuron

Meta Llama 3 70B Instruct Neuron Keine Nein Nein

AWSNeuron

Meta Llama 3 8B Neuron Keine Nein Nein

AWSNeuron

Meta Llama 3 8B Instruct Neuron Keine Nein Nein

AWSNeuron

Meta Code Llama 70B Neuron Keine Nein Nein

AWSNeuron

Meta Code Llama 7B Neuron Keine Nein Nein

AWSNeuron

Meta Code Llama 7B Python Neuron Keine Nein Nein

AWSNeuron

Meta Lama 3.1 405B FP8 Keine Ja Ja

Keine

Meta Llama 3.1 405B Einweisen FP8 Keine Ja Ja

Keine

Meta Lama 3.1 70B

INT4-AWQ

FP8

Ja Ja

Keine

Meta Llama 3.1 70B Instruct

INT4-AWQ

FP8

Ja Ja

Keine

Meta Lama 3.1 8B

INT4-AWQ

FP8

Ja Ja

Keine

Meta Llama 3.1 8B Instruct

INT4-AWQ

FP8

Ja Ja

Keine

Meta Llama 3.1 70B Neuron Keine Nein Nein

AWSNeuron

Meta Llama 3.1 70B Instruct Neuron Keine Nein Nein

AWSNeuron

Meta Llama 3 1 8B Neuron Keine Nein Nein

AWSNeuron

Meta Llama 3.1 8B Instruct Neuron Keine Nein Nein

AWSNeuron

Unterstützte Mistral-Modelle
Modellname Unterstützte Datenformate für die Quantisierung Unterstützt spekulative Dekodierung Unterstützt schnelles Laden von Modellen Für die Kompilierung verwendete Bibliotheken
Mistral 7B

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

AWSNeuron

TensorRT-LLM

Mistral 7B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

AWSNeuron

TensorRT-LLM

Mistral 7B Neuron Keine Nein Nein

AWSNeuron

Mistral 7B Instruct Neuron Keine Nein Nein

AWSNeuron

Unterstützte Mixtral-Modelle
Modellname Unterstützte Datenformate für die Quantisierung Unterstützt spekulative Dekodierung Unterstützt schnelles Laden von Modellen Für die Kompilierung verwendete Bibliotheken
Mixtral-8x22B-Instruct-v0.1

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

TensorRT-LLM

Mixtral-8x22B V1

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

TensorRT-LLM

Mixtral 8x7B

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

TensorRT-LLM

Mixtral 8x7B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

Ja Ja

TensorRT-LLM

Unterstützte Modellarchitekturen und EAGLE-Typ

Name der Modellarchitektur

Typ EAGLE

LlamaForCausalLM

ADLER 3

Frau 3 LM ForCausal

ADLER 3

Frau 3 LM NextForCausal

ADLER 2

Frau 3 LM MoeForCausal 

ADLER 3

Frau 2 LM ForCausal

ADLER 3

GptOssForCausalLM

ADLER 3