支援的模型參考 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

支援的模型參考

下表顯示 SageMaker AI 支援推論最佳化的模型,並顯示支援的最佳化技術。

支援的 Llama 模型
模型名稱 支援的量化資料格式 支援推測性解碼 支援快速模型載入 用於編譯的程式庫
Meta Llama 2 13B

INT4-AWQ

INT8-SmoothQuant

FP8

AWSNeuron

TensorRT-LLM

Meta Llama 2 13B Chat

INT4-AWQ

INT8-SmoothQuant

FP8

AWSNeuron

TensorRT-LLM

Meta Llama 2 70B

INT4-AWQ

INT8-SmoothQuant

FP8

AWSNeuron

TensorRT-LLM

Meta Llama 2 70B Chat

INT4-AWQ

INT8-SmoothQuant

FP8

AWSNeuron

TensorRT-LLM

Meta Llama 2 7B

INT4-AWQ

INT8-SmoothQuant

FP8

AWSNeuron

TensorRT-LLM

Meta Llama 2 7B Chat

INT4-AWQ

INT8-SmoothQuant

FP8

AWSNeuron

TensorRT-LLM

Meta Llama 3 70B

INT4-AWQ

INT8-SmoothQuant

FP8

AWSNeuron

TensorRT-LLM

Meta Llama 3 70B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

AWSNeuron

TensorRT-LLM

Meta Llama 3 8B

INT4-AWQ

INT8-SmoothQuant

FP8

AWSNeuron

TensorRT-LLM

Meta Llama 3 8B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

AWSNeuron

TensorRT-LLM

Meta Code Llama 13B

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Meta Code Llama 13B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Meta Code Llama 13B Python

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Meta Code Llama 34B

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Meta Code Llama 34B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Meta Code Llama 34B Python

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Meta Code Llama 70B

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Meta Code Llama 70B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Meta Code Llama 70B Python

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Meta Code Llama 7B

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Meta Code Llama 7B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Meta Code Llama 7B Python

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Meta Llama 2 13B Neuron

AWSNeuron

Meta Llama 2 13B Chat Neuron

AWSNeuron

Meta Llama 2 70B Neuron

AWSNeuron

Meta Llama 2 70B Chat Neuron

AWSNeuron

Meta Llama 2 7B Neuron

AWSNeuron

Meta Llama 2 7B Chat Neuron

AWSNeuron

Meta Llama 3 70B Neuron

AWSNeuron

Meta Llama 3 70B Instruct Neuron

AWSNeuron

Meta Llama 3 8B Neuron

AWSNeuron

Meta Llama 3 8B Instruct Neuron

AWSNeuron

Meta Code Llama 70B Neuron

AWSNeuron

Meta Code Llama 7B Neuron

AWSNeuron

Meta Code Llama 7B Python Neuron

AWSNeuron

Meta Llama 3.1 405B FP8

Meta Llama 3.1 405B Instruct FP8

Meta Llama 3.1 70B

INT4-AWQ

FP8

Meta Llama 3.1 70B Instruct

INT4-AWQ

FP8

Meta Llama 3.1 8B

INT4-AWQ

FP8

Meta Llama 3.1 8B Instruct

INT4-AWQ

FP8

Meta Llama 3.1 70B Neuron

AWSNeuron

Meta Llama 3.1 70B Instruct Neuron

AWSNeuron

Meta Llama 3 1 8B Neuron

AWSNeuron

Meta Llama 3.1 8B Instruct Neuron

AWSNeuron

支援的 Mistral 模型
模型名稱 支援的量化資料格式 支援推測性解碼 支援快速模型載入 用於編譯的程式庫
Mistral 7B

INT4-AWQ

INT8-SmoothQuant

FP8

AWSNeuron

TensorRT-LLM

Mistral 7B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

AWSNeuron

TensorRT-LLM

Mistral 7B Neuron

AWSNeuron

Mistral 7B Instruct Neuron

AWSNeuron

支援的 Mixtral 模型
模型名稱 支援的量化資料格式 支援推測性解碼 支援快速模型載入 用於編譯的程式庫
Mixtral-8x22B-Instruct-v0.1

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Mixtral-8x22B V1

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Mixtral 8x7B

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

Mixtral 8x7B Instruct

INT4-AWQ

INT8-SmoothQuant

FP8

TensorRT-LLM

支援的模型架構和 EAGLE 類型

模型架構名稱

EAGLE 類型

LlamaForCausalLM

EAGLE 3

Qwen3ForCausalLM

EAGLE 3

Qwen3NextForCausalLM

EAGLE 2

Qwen3MoeForCausalLM 

EAGLE 3

Qwen2ForCausalLM

EAGLE 3

GptOssForCausalLM

EAGLE 3