Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Referenz zu unterstützten Modellen
Die folgenden Tabellen zeigen die Modelle, für die SageMaker KI die Inferenzoptimierung unterstützt, und sie zeigen die unterstützten Optimierungstechniken.
| Modellname | Unterstützte Datenformate für die Quantisierung | Unterstützt spekulative Dekodierung | Unterstützt schnelles Laden von Modellen | Für die Kompilierung verwendete Bibliotheken |
|---|---|---|---|---|
| Meta Llama 2 13B |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
AWSNeuron TensorRT-LLM |
| Meta Llama 2 13B Chat |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
AWSNeuron TensorRT-LLM |
| Meta Llama 2 70B |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
AWSNeuron TensorRT-LLM |
| Meta Llama 2 70B Chat |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
AWSNeuron TensorRT-LLM |
| Meta Lama 2 7B |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
AWSNeuron TensorRT-LLM |
| Meta Llama 2 7B Chat |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
AWSNeuron TensorRT-LLM |
| Meta Lama 3 70B |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
AWSNeuron TensorRT-LLM |
| Meta Llama 3 70B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
AWSNeuron TensorRT-LLM |
| Meta Lama 3 8B |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
AWSNeuron TensorRT-LLM |
| Meta Llama 3 8B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
AWSNeuron TensorRT-LLM |
| Meta Code Llama 13B |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
TensorRT-LLM |
| Meta Code Llama 13B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
TensorRT-LLM |
| Meta Code Llama 13B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
TensorRT-LLM |
| Meta Code Llama 34B |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
TensorRT-LLM |
| Meta Code Llama 34B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
TensorRT-LLM |
| Meta Code Llama 34B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
TensorRT-LLM |
| Meta Code Llama 70B |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
TensorRT-LLM |
| Meta Code Llama 70B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
TensorRT-LLM |
| Meta Code Llama 70B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
TensorRT-LLM |
| Meta Code Llama 7B |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
TensorRT-LLM |
| Meta Code Llama 7B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
TensorRT-LLM |
| Meta Code Llama 7B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
TensorRT-LLM |
| Meta Llama 2 13B Neuron | Keine | Nein | Nein |
AWSNeuron |
| Meta Llama 2 13B Chat Neuron | Keine | Nein | Nein |
AWSNeuron |
| Meta Llama 2 70B Neuron | Keine | Nein | Nein |
AWSNeuron |
| Meta Llama 2 70B Chat Neuron | Keine | Nein | Nein |
AWSNeuron |
| Meta Llama 2 7B Neuron | Keine | Nein | Nein |
AWSNeuron |
| Meta Llama 2 7B Chat Neuron | Keine | Nein | Nein |
AWSNeuron |
| Meta Llama 3 70B Neuron | Keine | Nein | Nein |
AWSNeuron |
| Meta Llama 3 70B Instruct Neuron | Keine | Nein | Nein |
AWSNeuron |
| Meta Llama 3 8B Neuron | Keine | Nein | Nein |
AWSNeuron |
| Meta Llama 3 8B Instruct Neuron | Keine | Nein | Nein |
AWSNeuron |
| Meta Code Llama 70B Neuron | Keine | Nein | Nein |
AWSNeuron |
| Meta Code Llama 7B Neuron | Keine | Nein | Nein |
AWSNeuron |
| Meta Code Llama 7B Python Neuron | Keine | Nein | Nein |
AWSNeuron |
| Meta Lama 3.1 405B FP8 | Keine | Ja | Ja |
Keine |
| Meta Llama 3.1 405B Einweisen FP8 | Keine | Ja | Ja |
Keine |
| Meta Lama 3.1 70B |
INT4-AWQ FP8 |
Ja | Ja |
Keine |
| Meta Llama 3.1 70B Instruct |
INT4-AWQ FP8 |
Ja | Ja |
Keine |
| Meta Lama 3.1 8B |
INT4-AWQ FP8 |
Ja | Ja |
Keine |
| Meta Llama 3.1 8B Instruct |
INT4-AWQ FP8 |
Ja | Ja |
Keine |
| Meta Llama 3.1 70B Neuron | Keine | Nein | Nein |
AWSNeuron |
| Meta Llama 3.1 70B Instruct Neuron | Keine | Nein | Nein |
AWSNeuron |
| Meta Llama 3 1 8B Neuron | Keine | Nein | Nein |
AWSNeuron |
| Meta Llama 3.1 8B Instruct Neuron | Keine | Nein | Nein |
AWSNeuron |
| Modellname | Unterstützte Datenformate für die Quantisierung | Unterstützt spekulative Dekodierung | Unterstützt schnelles Laden von Modellen | Für die Kompilierung verwendete Bibliotheken |
|---|---|---|---|---|
| Mistral 7B |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
AWSNeuron TensorRT-LLM |
| Mistral 7B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
AWSNeuron TensorRT-LLM |
| Mistral 7B Neuron | Keine | Nein | Nein |
AWSNeuron |
| Mistral 7B Instruct Neuron | Keine | Nein | Nein |
AWSNeuron |
| Modellname | Unterstützte Datenformate für die Quantisierung | Unterstützt spekulative Dekodierung | Unterstützt schnelles Laden von Modellen | Für die Kompilierung verwendete Bibliotheken |
|---|---|---|---|---|
| Mixtral-8x22B-Instruct-v0.1 |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
TensorRT-LLM |
| Mixtral-8x22B V1 |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
TensorRT-LLM |
| Mixtral 8x7B |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
TensorRT-LLM |
| Mixtral 8x7B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
Ja | Ja |
TensorRT-LLM |
|
Name der Modellarchitektur |
Typ EAGLE |
|---|---|
|
LlamaForCausalLM |
ADLER 3 |
|
Frau 3 LM ForCausal |
ADLER 3 |
|
Frau 3 LM NextForCausal |
ADLER 2 |
|
Frau 3 LM MoeForCausal |
ADLER 3 |
|
Frau 2 LM ForCausal |
ADLER 3 |
|
GptOssForCausalLM |
ADLER 3 |