翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# サポートされているモデルリファレンス
<a name="optimization-supported-models"></a>

次の表に、SageMaker AI が推論最適化をサポートしているモデルと、サポートされている最適化手法を示します。


**サポートされている Llama モデル**  

| モデル名 | 量子化でサポートされているデータ形式 | 投機的デコーディングをサポート | 高速モデルロードをサポート | コンパイルに使用されるライブラリ | 
| --- | --- | --- | --- | --- | 
| Meta Llama 2 13B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | はい | はい | AWSニューロン<br />TensorRT-LLM | 
| Meta Llama 2 13B Chat | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | はい | はい | AWSニューロン<br />TensorRT-LLM | 
| Meta Llama 2 70B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | はい | はい | AWSニューロン<br />TensorRT-LLM | 
| Meta Llama 2 70B Chat | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | はい | はい | AWSニューロン<br />TensorRT-LLM | 
| Meta Llama 2 7B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | はい | はい | AWSニューロン<br />TensorRT-LLM | 
| Meta Llama 2 7B Chat | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | はい | はい | AWSニューロン<br />TensorRT-LLM | 
| Meta Llama 3 70B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | はい | はい | AWSニューロン<br />TensorRT-LLM | 
| Meta Llama 3 70B Instruct | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | はい | はい | AWSニューロン<br />TensorRT-LLM | 
| Meta Llama 3 8B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | はい | はい | AWSニューロン<br />TensorRT-LLM | 
| Meta Llama 3 8B Instruct | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | はい | はい | AWSニューロン<br />TensorRT-LLM | 
| Meta Code Llama 13B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | はい | はい | TensorRT-LLM | 
| Meta Code Llama 13B Instruct | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | はい | はい | TensorRT-LLM | 
| Meta Code Llama 13B Python | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | はい | はい | TensorRT-LLM | 
| Meta Code Llama 34B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | はい | はい | TensorRT-LLM | 
| Meta Code Llama 34B Instruct  | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | はい | はい | TensorRT-LLM | 
| Meta Code Llama 34B Python | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | はい | はい | TensorRT-LLM | 
| Meta Code Llama 70B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | はい | はい | TensorRT-LLM | 
| Meta Code Llama 70B Instruct | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | はい | はい | TensorRT-LLM | 
| Meta Code Llama 70B Python | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | はい | はい | TensorRT-LLM | 
| Meta Code Llama 7B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | はい | はい | TensorRT-LLM | 
| Meta Code Llama 7B Instruct | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | はい | はい | TensorRT-LLM | 
| Meta Code Llama 7B Python | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | はい | はい | TensorRT-LLM | 
| Meta Llama 2 13B Neuron | なし | いいえ | 不可 | AWSニューロン | 
| Meta Llama 2 13B Chat Neuron | なし | いいえ | 不可 | AWSニューロン | 
| Meta Llama 2 70B Neuron | なし | いいえ | 不可 | AWSニューロン | 
| Meta Llama 2 70B Chat Neuron | なし | いいえ | 不可 | AWSニューロン | 
| Meta Llama 2 7B Neuron | なし | いいえ | 不可 | AWSニューロン | 
| Meta Llama 2 7B Chat Neuron | なし | いいえ | 不可 | AWSニューロン | 
| Meta Llama 3 70B Neuron | なし | いいえ | 不可 | AWSニューロン | 
| Meta Llama 3 70B Instruct Neuron | なし | いいえ | 不可 | AWSニューロン | 
| Meta Llama 3 8B Neuron | なし | いいえ | 不可 | AWSニューロン | 
| Meta Llama 3 8B Instruct Neuron | なし | いいえ | 不可 | AWSニューロン | 
| Meta Code Llama 70B Neuron | なし | いいえ | 不可 | AWSニューロン | 
| Meta Code Llama 7B Neuron | なし | いいえ | 不可 | AWSニューロン | 
| Meta Code Llama 7B Python Neuron | なし | いいえ | 不可 | AWSニューロン | 
| Meta Llama 3.1 405B FP8 | なし | はい | はい | なし | 
| Meta Llama 3.1 405B Instruct FP8 | なし | はい | はい | なし | 
| Meta Llama 3.1 70B | INT4-AWQ<br />FP8 | はい | はい | なし | 
| Meta Llama 3.1 70B Instruct | INT4-AWQ<br />FP8 | はい | はい | なし | 
| Meta Llama 3.1 8B | INT4-AWQ<br />FP8 | はい | はい | なし | 
| Meta Llama 3.1 8B Instruct | INT4-AWQ<br />FP8 | はい | はい | なし | 
| Meta Llama 3.1 70B Neuron | なし | いいえ | 不可 | AWSニューロン | 
| Meta Llama 3.1 70B Instruct Neuron | なし | いいえ | 不可 | AWSニューロン | 
| Meta Llama 3 1 8B Neuron | なし | いいえ | 不可 | AWSニューロン | 
| Meta Llama 3.1 8B Instruct Neuron | なし | いいえ | 不可 | AWSニューロン | 


**サポートされている Mistral モデル**  

| モデル名 | 量子化でサポートされているデータ形式 | 投機的デコーディングをサポート | 高速モデルロードをサポート | コンパイルに使用されるライブラリ | 
| --- | --- | --- | --- | --- | 
| Mistral 7B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | はい | はい | AWSニューロン<br />TensorRT-LLM | 
| Mistral 7B Instruct | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | はい | はい | AWSニューロン<br />TensorRT-LLM | 
| Mistral 7B Neuron | なし | いいえ | 不可 | AWSニューロン | 
| Mistral 7B Instruct Neuron | なし | いいえ | 不可 | AWSニューロン | 


**サポートされている Mixtral モデル**  

| モデル名 | 量子化でサポートされているデータ形式 | 投機的デコーディングをサポート | 高速モデルロードをサポート | コンパイルに使用されるライブラリ | 
| --- | --- | --- | --- | --- | 
| Mixtral-8x22B-Instruct-v0.1 | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | はい | はい | TensorRT-LLM | 
| Mixtral-8x22B V1 | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | はい | はい | TensorRT-LLM | 
| Mixtral 8x7B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | はい | はい | TensorRT-LLM | 
| Mixtral 8x7B Instruct | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | はい | はい | TensorRT-LLM | 


**サポートされているモデルアーキテクチャと EAGLE タイプ**  

|  モデルアーキテクチャ名  |  EAGLE タイプ  | 
| --- | --- | 
| LlamaForCausalLM | EAGLE 3 | 
| Qwen3ForCausalLM | EAGLE 3 | 
| Qwen3NextForCausalLM | EAGLE 2 | 
| Qwen3MoeForCausalLM  | EAGLE 3 | 
| Qwen2ForCausalLM | EAGLE 3 | 
| GptOssForCausalLM | EAGLE 3 |