

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 支持的模型参考
<a name="optimization-supported-models"></a>

下表显示了 SageMaker AI 支持推理优化的模型，并显示了支持的优化技术。


**支持的 Llama 模型**  

| 模型名称 | 支持的量化数据格式 | 支持预测解码 | 支持快速模型加载 | 用于编译的库 | 
| --- | --- | --- | --- | --- | 
| Meta Llama 2 13B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | 支持 | 是 | AWS神经元<br />TensorRT-LLM | 
| Meta Llama 2 13B Chat | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | 支持 | 是 | AWS神经元<br />TensorRT-LLM | 
| Meta Llama 2 70B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | 支持 | 是 | AWS神经元<br />TensorRT-LLM | 
| Meta Llama 2 70B Chat | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | 支持 | 是 | AWS神经元<br />TensorRT-LLM | 
| Meta Llama 2 7B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | 支持 | 是 | AWS神经元<br />TensorRT-LLM | 
| Meta Llama 2 7B Chat | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | 支持 | 是 | AWS神经元<br />TensorRT-LLM | 
| Meta Llama 3 70B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | 支持 | 是 | AWS神经元<br />TensorRT-LLM | 
| Meta Llama 3 70B Instruct | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | 支持 | 是 | AWS神经元<br />TensorRT-LLM | 
| Meta Llama 3 8B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | 支持 | 是 | AWS神经元<br />TensorRT-LLM | 
| Meta Llama 3 8B Instruct | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | 支持 | 是 | AWS神经元<br />TensorRT-LLM | 
| Meta Code Llama 13B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | 支持 | 是 | TensorRT-LLM | 
| Meta Code Llama 13B Instruct | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | 支持 | 是 | TensorRT-LLM | 
| Meta Code Llama 13B Python | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | 支持 | 是 | TensorRT-LLM | 
| Meta Code Llama 34B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | 支持 | 是 | TensorRT-LLM | 
| Meta Code Llama 34B Instruct  | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | 支持 | 是 | TensorRT-LLM | 
| Meta Code Llama 34B Python | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | 支持 | 是 | TensorRT-LLM | 
| Meta Code Llama 70B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | 支持 | 是 | TensorRT-LLM | 
| Meta Code Llama 70B Instruct | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | 支持 | 是 | TensorRT-LLM | 
| Meta Code Llama 70B Python | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | 支持 | 是 | TensorRT-LLM | 
| Meta Code Llama 7B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | 支持 | 是 | TensorRT-LLM | 
| Meta Code Llama 7B Instruct | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | 支持 | 是 | TensorRT-LLM | 
| Meta Code Llama 7B Python | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | 支持 | 是 | TensorRT-LLM | 
| Meta Llama 2 13B Neuron | 无 | 否 | 否 | AWS神经元 | 
| Meta Llama 2 13B Chat Neuron | 无 | 否 | 否 | AWS神经元 | 
| Meta Llama 2 70B Neuron | 无 | 否 | 否 | AWS神经元 | 
| Meta Llama 2 70B Chat Neuron | 无 | 否 | 否 | AWS神经元 | 
| Meta Llama 2 7B Neuron | 无 | 否 | 否 | AWS神经元 | 
| Meta Llama 2 7B Chat Neuron | 无 | 否 | 否 | AWS神经元 | 
| Meta Llama 3 70B Neuron | 无 | 否 | 否 | AWS神经元 | 
| Meta Llama 3 70B Instruct Neuron | 无 | 否 | 否 | AWS神经元 | 
| Meta Llama 3 8B Neuron | 无 | 否 | 否 | AWS神经元 | 
| Meta Llama 3 8B Instruct Neuron | 无 | 否 | 否 | AWS神经元 | 
| Meta Code Llama 70B Neuron | 无 | 否 | 否 | AWS神经元 | 
| Meta Code Llama 7B Neuron | 无 | 否 | 否 | AWS神经元 | 
| Meta Code Llama 7B Python Neuron | 无 | 否 | 否 | AWS神经元 | 
| Meta Llama 3.1 405B FP8 | 无 | 支持 | 是 | 无 | 
| Meta Llama 3.1 405B Instruct FP8 | 无 | 支持 | 是 | 无 | 
| Meta Llama 3.1 70B | INT4-AWQ<br />FP8 | 支持 | 是 | 无 | 
| Meta Llama 3.1 70B Instruct | INT4-AWQ<br />FP8 | 支持 | 是 | 无 | 
| Meta Llama 3.1 8B | INT4-AWQ<br />FP8 | 支持 | 是 | 无 | 
| Meta Llama 3.1 8B Instruct | INT4-AWQ<br />FP8 | 支持 | 是 | 无 | 
| Meta Llama 3.1 70B Neuron | 无 | 否 | 否 | AWS神经元 | 
| Meta Llama 3.1 70B Instruct Neuron | 无 | 否 | 否 | AWS神经元 | 
| Meta Llama 3 1 8B Neuron | 无 | 否 | 否 | AWS神经元 | 
| Meta Llama 3.1 8B Instruct Neuron | 无 | 否 | 否 | AWS神经元 | 


**支持的 Mistral 模型**  

| 模型名称 | 支持的量化数据格式 | 支持预测解码 | 支持快速模型加载 | 用于编译的库 | 
| --- | --- | --- | --- | --- | 
| Mistral 7B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | 支持 | 是 | AWS神经元<br />TensorRT-LLM | 
| Mistral 7B Instruct | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | 支持 | 是 | AWS神经元<br />TensorRT-LLM | 
| Mistral 7B Neuron | 无 | 否 | 否 | AWS神经元 | 
| Mistral 7B Instruct Neuron | 无 | 否 | 否 | AWS神经元 | 


**支持的 Mixtral 模型**  

| 模型名称 | 支持的量化数据格式 | 支持预测解码 | 支持快速模型加载 | 用于编译的库 | 
| --- | --- | --- | --- | --- | 
| Mixtral-8x22B-Instruct-v0.1 | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | 支持 | 是 | TensorRT-LLM | 
| Mixtral-8x22B V1 | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | 支持 | 是 | TensorRT-LLM | 
| Mixtral 8x7B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | 支持 | 是 | TensorRT-LLM | 
| Mixtral 8x7B Instruct | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | 支持 | 是 | TensorRT-LLM | 


**支持的模型架构和 EAGLE 类型**  

|  模型架构名称  |  鹰型  | 
| --- | --- | 
| LlamaForCausalLM | 老鹰 3 | 
| Qwen3 LM ForCausal | 老鹰 3 | 
| Qwen3 LM NextForCausal | 老鹰 2 | 
| Qwen3 LM MoeForCausal  | 老鹰 3 | 
| Qwen2 LM ForCausal | 老鹰 3 | 
| GptOssForCausalLM | 老鹰 3 | 