支援的模型參考

下表顯示 SageMaker AI 支援推論最佳化的模型，並顯示支援的最佳化技術。

支援的 Llama 模型
模型名稱	支援的量化資料格式	支援推測性解碼	支援快速模型載入	用於編譯的程式庫
Meta Llama 2 13B	INT4-AWQ INT8-SmoothQuant FP8	是	是	AWSNeuron TensorRT-LLM
Meta Llama 2 13B Chat	INT4-AWQ INT8-SmoothQuant FP8	是	是	AWSNeuron TensorRT-LLM
Meta Llama 2 70B	INT4-AWQ INT8-SmoothQuant FP8	是	是	AWSNeuron TensorRT-LLM
Meta Llama 2 70B Chat	INT4-AWQ INT8-SmoothQuant FP8	是	是	AWSNeuron TensorRT-LLM
Meta Llama 2 7B	INT4-AWQ INT8-SmoothQuant FP8	是	是	AWSNeuron TensorRT-LLM
Meta Llama 2 7B Chat	INT4-AWQ INT8-SmoothQuant FP8	是	是	AWSNeuron TensorRT-LLM
Meta Llama 3 70B	INT4-AWQ INT8-SmoothQuant FP8	是	是	AWSNeuron TensorRT-LLM
Meta Llama 3 70B Instruct	INT4-AWQ INT8-SmoothQuant FP8	是	是	AWSNeuron TensorRT-LLM
Meta Llama 3 8B	INT4-AWQ INT8-SmoothQuant FP8	是	是	AWSNeuron TensorRT-LLM
Meta Llama 3 8B Instruct	INT4-AWQ INT8-SmoothQuant FP8	是	是	AWSNeuron TensorRT-LLM
Meta Code Llama 13B	INT4-AWQ INT8-SmoothQuant FP8	是	是	TensorRT-LLM
Meta Code Llama 13B Instruct	INT4-AWQ INT8-SmoothQuant FP8	是	是	TensorRT-LLM
Meta Code Llama 13B Python	INT4-AWQ INT8-SmoothQuant FP8	是	是	TensorRT-LLM
Meta Code Llama 34B	INT4-AWQ INT8-SmoothQuant FP8	是	是	TensorRT-LLM
Meta Code Llama 34B Instruct	INT4-AWQ INT8-SmoothQuant FP8	是	是	TensorRT-LLM
Meta Code Llama 34B Python	INT4-AWQ INT8-SmoothQuant FP8	是	是	TensorRT-LLM
Meta Code Llama 70B	INT4-AWQ INT8-SmoothQuant FP8	是	是	TensorRT-LLM
Meta Code Llama 70B Instruct	INT4-AWQ INT8-SmoothQuant FP8	是	是	TensorRT-LLM
Meta Code Llama 70B Python	INT4-AWQ INT8-SmoothQuant FP8	是	是	TensorRT-LLM
Meta Code Llama 7B	INT4-AWQ INT8-SmoothQuant FP8	是	是	TensorRT-LLM
Meta Code Llama 7B Instruct	INT4-AWQ INT8-SmoothQuant FP8	是	是	TensorRT-LLM
Meta Code Llama 7B Python	INT4-AWQ INT8-SmoothQuant FP8	是	是	TensorRT-LLM
Meta Llama 2 13B Neuron	無	否	否	AWSNeuron
Meta Llama 2 13B Chat Neuron	無	否	否	AWSNeuron
Meta Llama 2 70B Neuron	無	否	否	AWSNeuron
Meta Llama 2 70B Chat Neuron	無	否	否	AWSNeuron
Meta Llama 2 7B Neuron	無	否	否	AWSNeuron
Meta Llama 2 7B Chat Neuron	無	否	否	AWSNeuron
Meta Llama 3 70B Neuron	無	否	否	AWSNeuron
Meta Llama 3 70B Instruct Neuron	無	否	否	AWSNeuron
Meta Llama 3 8B Neuron	無	否	否	AWSNeuron
Meta Llama 3 8B Instruct Neuron	無	否	否	AWSNeuron
Meta Code Llama 70B Neuron	無	否	否	AWSNeuron
Meta Code Llama 7B Neuron	無	否	否	AWSNeuron
Meta Code Llama 7B Python Neuron	無	否	否	AWSNeuron
Meta Llama 3.1 405B FP8	無	是	是	無
Meta Llama 3.1 405B Instruct FP8	無	是	是	無
Meta Llama 3.1 70B	INT4-AWQ FP8	是	是	無
Meta Llama 3.1 70B Instruct	INT4-AWQ FP8	是	是	無
Meta Llama 3.1 8B	INT4-AWQ FP8	是	是	無
Meta Llama 3.1 8B Instruct	INT4-AWQ FP8	是	是	無
Meta Llama 3.1 70B Neuron	無	否	否	AWSNeuron
Meta Llama 3.1 70B Instruct Neuron	無	否	否	AWSNeuron
Meta Llama 3 1 8B Neuron	無	否	否	AWSNeuron
Meta Llama 3.1 8B Instruct Neuron	無	否	否	AWSNeuron

支援的 Mistral 模型
模型名稱	支援的量化資料格式	支援推測性解碼	支援快速模型載入	用於編譯的程式庫
Mistral 7B	INT4-AWQ INT8-SmoothQuant FP8	是	是	AWSNeuron TensorRT-LLM
Mistral 7B Instruct	INT4-AWQ INT8-SmoothQuant FP8	是	是	AWSNeuron TensorRT-LLM
Mistral 7B Neuron	無	否	否	AWSNeuron
Mistral 7B Instruct Neuron	無	否	否	AWSNeuron

支援的 Mixtral 模型
模型名稱	支援的量化資料格式	支援推測性解碼	支援快速模型載入	用於編譯的程式庫
Mixtral-8x22B-Instruct-v0.1	INT4-AWQ INT8-SmoothQuant FP8	是	是	TensorRT-LLM
Mixtral-8x22B V1	INT4-AWQ INT8-SmoothQuant FP8	是	是	TensorRT-LLM
Mixtral 8x7B	INT4-AWQ INT8-SmoothQuant FP8	是	是	TensorRT-LLM
Mixtral 8x7B Instruct	INT4-AWQ INT8-SmoothQuant FP8	是	是	TensorRT-LLM

支援的模型架構和 EAGLE 類型
模型架構名稱	EAGLE 類型
LlamaForCausalLM	EAGLE 3
Qwen3ForCausalLM	EAGLE 3
Qwen3NextForCausalLM	EAGLE 2
Qwen3MoeForCausalLM	EAGLE 3
Qwen2ForCausalLM	EAGLE 3
GptOssForCausalLM	EAGLE 3

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

評估效能

用於評估模型的選項