本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
支援的模型參考
下表顯示 SageMaker AI 支援推論最佳化的模型,並顯示支援的最佳化技術。
| 模型名稱 | 支援的量化資料格式 | 支援推測性解碼 | 支援快速模型載入 | 用於編譯的程式庫 |
|---|---|---|---|---|
| Meta Llama 2 13B |
INT4-AWQ INT8-SmoothQuant FP8 |
是 | 是 |
AWSNeuron TensorRT-LLM |
| Meta Llama 2 13B Chat |
INT4-AWQ INT8-SmoothQuant FP8 |
是 | 是 |
AWSNeuron TensorRT-LLM |
| Meta Llama 2 70B |
INT4-AWQ INT8-SmoothQuant FP8 |
是 | 是 |
AWSNeuron TensorRT-LLM |
| Meta Llama 2 70B Chat |
INT4-AWQ INT8-SmoothQuant FP8 |
是 | 是 |
AWSNeuron TensorRT-LLM |
| Meta Llama 2 7B |
INT4-AWQ INT8-SmoothQuant FP8 |
是 | 是 |
AWSNeuron TensorRT-LLM |
| Meta Llama 2 7B Chat |
INT4-AWQ INT8-SmoothQuant FP8 |
是 | 是 |
AWSNeuron TensorRT-LLM |
| Meta Llama 3 70B |
INT4-AWQ INT8-SmoothQuant FP8 |
是 | 是 |
AWSNeuron TensorRT-LLM |
| Meta Llama 3 70B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
是 | 是 |
AWSNeuron TensorRT-LLM |
| Meta Llama 3 8B |
INT4-AWQ INT8-SmoothQuant FP8 |
是 | 是 |
AWSNeuron TensorRT-LLM |
| Meta Llama 3 8B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
是 | 是 |
AWSNeuron TensorRT-LLM |
| Meta Code Llama 13B |
INT4-AWQ INT8-SmoothQuant FP8 |
是 | 是 |
TensorRT-LLM |
| Meta Code Llama 13B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
是 | 是 |
TensorRT-LLM |
| Meta Code Llama 13B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
是 | 是 |
TensorRT-LLM |
| Meta Code Llama 34B |
INT4-AWQ INT8-SmoothQuant FP8 |
是 | 是 |
TensorRT-LLM |
| Meta Code Llama 34B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
是 | 是 |
TensorRT-LLM |
| Meta Code Llama 34B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
是 | 是 |
TensorRT-LLM |
| Meta Code Llama 70B |
INT4-AWQ INT8-SmoothQuant FP8 |
是 | 是 |
TensorRT-LLM |
| Meta Code Llama 70B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
是 | 是 |
TensorRT-LLM |
| Meta Code Llama 70B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
是 | 是 |
TensorRT-LLM |
| Meta Code Llama 7B |
INT4-AWQ INT8-SmoothQuant FP8 |
是 | 是 |
TensorRT-LLM |
| Meta Code Llama 7B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
是 | 是 |
TensorRT-LLM |
| Meta Code Llama 7B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
是 | 是 |
TensorRT-LLM |
| Meta Llama 2 13B Neuron | 無 | 否 | 否 |
AWSNeuron |
| Meta Llama 2 13B Chat Neuron | 無 | 否 | 否 |
AWSNeuron |
| Meta Llama 2 70B Neuron | 無 | 否 | 否 |
AWSNeuron |
| Meta Llama 2 70B Chat Neuron | 無 | 否 | 否 |
AWSNeuron |
| Meta Llama 2 7B Neuron | 無 | 否 | 否 |
AWSNeuron |
| Meta Llama 2 7B Chat Neuron | 無 | 否 | 否 |
AWSNeuron |
| Meta Llama 3 70B Neuron | 無 | 否 | 否 |
AWSNeuron |
| Meta Llama 3 70B Instruct Neuron | 無 | 否 | 否 |
AWSNeuron |
| Meta Llama 3 8B Neuron | 無 | 否 | 否 |
AWSNeuron |
| Meta Llama 3 8B Instruct Neuron | 無 | 否 | 否 |
AWSNeuron |
| Meta Code Llama 70B Neuron | 無 | 否 | 否 |
AWSNeuron |
| Meta Code Llama 7B Neuron | 無 | 否 | 否 |
AWSNeuron |
| Meta Code Llama 7B Python Neuron | 無 | 否 | 否 |
AWSNeuron |
| Meta Llama 3.1 405B FP8 | 無 | 是 | 是 |
無 |
| Meta Llama 3.1 405B Instruct FP8 | 無 | 是 | 是 |
無 |
| Meta Llama 3.1 70B |
INT4-AWQ FP8 |
是 | 是 |
無 |
| Meta Llama 3.1 70B Instruct |
INT4-AWQ FP8 |
是 | 是 |
無 |
| Meta Llama 3.1 8B |
INT4-AWQ FP8 |
是 | 是 |
無 |
| Meta Llama 3.1 8B Instruct |
INT4-AWQ FP8 |
是 | 是 |
無 |
| Meta Llama 3.1 70B Neuron | 無 | 否 | 否 |
AWSNeuron |
| Meta Llama 3.1 70B Instruct Neuron | 無 | 否 | 否 |
AWSNeuron |
| Meta Llama 3 1 8B Neuron | 無 | 否 | 否 |
AWSNeuron |
| Meta Llama 3.1 8B Instruct Neuron | 無 | 否 | 否 |
AWSNeuron |
| 模型名稱 | 支援的量化資料格式 | 支援推測性解碼 | 支援快速模型載入 | 用於編譯的程式庫 |
|---|---|---|---|---|
| Mistral 7B |
INT4-AWQ INT8-SmoothQuant FP8 |
是 | 是 |
AWSNeuron TensorRT-LLM |
| Mistral 7B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
是 | 是 |
AWSNeuron TensorRT-LLM |
| Mistral 7B Neuron | 無 | 否 | 否 |
AWSNeuron |
| Mistral 7B Instruct Neuron | 無 | 否 | 否 |
AWSNeuron |
| 模型名稱 | 支援的量化資料格式 | 支援推測性解碼 | 支援快速模型載入 | 用於編譯的程式庫 |
|---|---|---|---|---|
| Mixtral-8x22B-Instruct-v0.1 |
INT4-AWQ INT8-SmoothQuant FP8 |
是 | 是 |
TensorRT-LLM |
| Mixtral-8x22B V1 |
INT4-AWQ INT8-SmoothQuant FP8 |
是 | 是 |
TensorRT-LLM |
| Mixtral 8x7B |
INT4-AWQ INT8-SmoothQuant FP8 |
是 | 是 |
TensorRT-LLM |
| Mixtral 8x7B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
是 | 是 |
TensorRT-LLM |
|
模型架構名稱 |
EAGLE 類型 |
|---|---|
|
LlamaForCausalLM |
EAGLE 3 |
|
Qwen3ForCausalLM |
EAGLE 3 |
|
Qwen3NextForCausalLM |
EAGLE 2 |
|
Qwen3MoeForCausalLM |
EAGLE 3 |
|
Qwen2ForCausalLM |
EAGLE 3 |
|
GptOssForCausalLM |
EAGLE 3 |