

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Referensi model yang didukung
<a name="optimization-supported-models"></a>

Tabel berikut menunjukkan model yang SageMaker AI mendukung optimasi inferensi, dan mereka menunjukkan teknik pengoptimalan yang didukung.


**Model Llama yang didukung**  

| Nama Model | Format Data yang Didukung untuk Kuantisasi | Mendukung Decoding Spekulatif | Mendukung Pemuatan Model Cepat | Perpustakaan Digunakan untuk Kompilasi | 
| --- | --- | --- | --- | --- | 
| Meta Llama 2 13B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Ya | Ya | AWSNeuron<br />Tensorrt-LLM | 
| Meta Llama 2 13B Obrolan | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Ya | Ya | AWSNeuron<br />Tensorrt-LLM | 
| Meta Llama 2 70B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Ya | Ya | AWSNeuron<br />Tensorrt-LLM | 
| Meta Llama 2 70B Obrolan | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Ya | Ya | AWSNeuron<br />Tensorrt-LLM | 
| Meta Llama 2 7B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Ya | Ya | AWSNeuron<br />Tensorrt-LLM | 
| Meta Llama 2 7B Obrolan | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Ya | Ya | AWSNeuron<br />Tensorrt-LLM | 
| Meta Llama 3 70B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Ya | Ya | AWSNeuron<br />Tensorrt-LLM | 
| Instruksi Meta Llama 3 70B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Ya | Ya | AWSNeuron<br />Tensorrt-LLM | 
| Meta Llama 3 8B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Ya | Ya | AWSNeuron<br />Tensorrt-LLM | 
| Instruksi Meta Llama 3 8B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Ya | Ya | AWSNeuron<br />Tensorrt-LLM | 
| Kode Meta Llama 13B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Ya | Ya | Tensorrt-LLM | 
| Meta Kode Llama 13B Instruksi | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Ya | Ya | Tensorrt-LLM | 
| Kode Meta Llama 13B Python | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Ya | Ya | Tensorrt-LLM | 
| Kode Meta Llama 34B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Ya | Ya | Tensorrt-LLM | 
| Meta Kode Llama 34B Instruksi  | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Ya | Ya | Tensorrt-LLM | 
| Kode Meta Llama 34B Python | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Ya | Ya | Tensorrt-LLM | 
| Kode Meta Llama 70B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Ya | Ya | Tensorrt-LLM | 
| Meta Kode Llama 70B Instruksi | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Ya | Ya | Tensorrt-LLM | 
| Kode Meta Llama 70B Python | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Ya | Ya | Tensorrt-LLM | 
| Kode Meta Llama 7B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Ya | Ya | Tensorrt-LLM | 
| Meta Kode Llama 7B Instruksi | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Ya | Ya | Tensorrt-LLM | 
| Kode Meta Llama 7B Python | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Ya | Ya | Tensorrt-LLM | 
| Meta Llama 2 13B Neuron | Tidak ada | Tidak | Tidak | AWSNeuron | 
| Meta Llama 2 13B Obrolan Neuron | Tidak ada | Tidak | Tidak | AWSNeuron | 
| Meta Llama 2 70B Neuron | Tidak ada | Tidak | Tidak | AWSNeuron | 
| Meta Llama 2 70B Obrolan Neuron | Tidak ada | Tidak | Tidak | AWSNeuron | 
| Meta Llama 2 7B Neuron | Tidak ada | Tidak | Tidak | AWSNeuron | 
| Meta Llama 2 7B Neuron Obrolan | Tidak ada | Tidak | Tidak | AWSNeuron | 
| Meta Llama 3 70B Neuron | Tidak ada | Tidak | Tidak | AWSNeuron | 
| Meta Llama 3 70B Instruksi Neuron | Tidak ada | Tidak | Tidak | AWSNeuron | 
| Meta Llama 3 8B Neuron | Tidak ada | Tidak | Tidak | AWSNeuron | 
| Meta Llama 3 8B Instruksi Neuron | Tidak ada | Tidak | Tidak | AWSNeuron | 
| Kode Meta Llama 70B Neuron | Tidak ada | Tidak | Tidak | AWSNeuron | 
| Kode Meta Llama 7B Neuron | Tidak ada | Tidak | Tidak | AWSNeuron | 
| Kode Meta Llama 7B Neuron Python | Tidak ada | Tidak | Tidak | AWSNeuron | 
| Meta Llama 3.1 405B FP8 | Tidak ada | Ya | Ya | Tidak ada | 
| Instruksi Meta Llama 3.1 405B FP8 | Tidak ada | Ya | Ya | Tidak ada | 
| Meta Llama 3.1 70B | INT4-AWQ<br />FP8 | Ya | Ya | Tidak ada | 
| Instruksi Meta Llama 3.1 70B | INT4-AWQ<br />FP8 | Ya | Ya | Tidak ada | 
| Meta Llama 3.1 8B | INT4-AWQ<br />FP8 | Ya | Ya | Tidak ada | 
| Instruksi Meta Llama 3.1 8B | INT4-AWQ<br />FP8 | Ya | Ya | Tidak ada | 
| Meta Llama 3.1 70B Neuron | Tidak ada | Tidak | Tidak | AWSNeuron | 
| Meta Llama 3.1 70B Instruksi Neuron | Tidak ada | Tidak | Tidak | AWSNeuron | 
| Meta Llama 3 1 8B Neuron | Tidak ada | Tidak | Tidak | AWSNeuron | 
| Meta Llama 3.1 8B Instruksi Neuron | Tidak ada | Tidak | Tidak | AWSNeuron | 


**Model Mistral yang didukung**  

| Nama Model | Format Data yang Didukung untuk Kuantisasi | Mendukung Decoding Spekulatif | Mendukung Pemuatan Model Cepat | Perpustakaan Digunakan untuk Kompilasi | 
| --- | --- | --- | --- | --- | 
| Mistral 7B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Ya | Ya | AWSNeuron<br />Tensorrt-LLM | 
| Instruksi Mistral 7B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Ya | Ya | AWSNeuron<br />Tensorrt-LLM | 
| Neuron Mistral 7B | Tidak ada | Tidak | Tidak | AWSNeuron | 
| Mistral 7B Instruksikan Neuron | Tidak ada | Tidak | Tidak | AWSNeuron | 


**Model Mixtral yang didukung**  

| Nama Model | Format Data yang Didukung untuk Kuantisasi | Mendukung Decoding Spekulatif | Mendukung Pemuatan Model Cepat | Perpustakaan Digunakan untuk Kompilasi | 
| --- | --- | --- | --- | --- | 
| Mixtral-8x22B-Instruksi-V0.1 | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Ya | Ya | Tensorrt-LLM | 
| Mixtral-8x22B V1 | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Ya | Ya | Tensorrt-LLM | 
| Mixtral 8x7B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Ya | Ya | Tensorrt-LLM | 
| Instruksi Mixtral 8x7B | INT4-AWQ<br />INT8-SmoothQuant<br />FP8 | Ya | Ya | Tensorrt-LLM | 


**Arsitektur Model yang Didukung dan Tipe EAGLE**  

|  Nama Arsitektur Model  |  Jenis EAGLE  | 
| --- | --- | 
| LlamaForCausalLM | ELANG 3 | 
| Qwen3 ForCausal LM | ELANG 3 | 
| Qwen3 NextForCausal LM | ELANG 2 | 
| Qwen3 MoeForCausal LM  | ELANG 3 | 
| Qwen2 ForCausal LM | ELANG 3 | 
| GptOssForCausalLM | ELANG 3 | 