지원되는 모델 참조

다음 표에는 SageMaker AI가 추론 최적화를 지원하는 모델과 지원되는 최적화 기술이 나와 있습니다.

지원되는 Llama 모델
모델 이름	양자화에 지원되는 데이터 형식	추론 디코딩 지원	고속 모델 로드 지원	컴파일에 사용되는 라이브러리
Meta Llama 2 13B	INT4-AWQ INT8-SmoothQuant FP8	예	예	AWS뉴런 TensorRT-LLM
Meta Llama 2 13B Chat	INT4-AWQ INT8-SmoothQuant FP8	예	예	AWS뉴런 TensorRT-LLM
Meta Llama 2 70B	INT4-AWQ INT8-SmoothQuant FP8	예	예	AWS뉴런 TensorRT-LLM
Meta Llama 2 70B Chat	INT4-AWQ INT8-SmoothQuant FP8	예	예	AWS뉴런 TensorRT-LLM
Meta Llama 2 7B	INT4-AWQ INT8-SmoothQuant FP8	예	예	AWS뉴런 TensorRT-LLM
Meta Llama 2 7B Chat	INT4-AWQ INT8-SmoothQuant FP8	예	예	AWS뉴런 TensorRT-LLM
Meta Llama 3 70B	INT4-AWQ INT8-SmoothQuant FP8	예	예	AWS뉴런 TensorRT-LLM
Meta Llama 3 70B Instruct	INT4-AWQ INT8-SmoothQuant FP8	예	예	AWS뉴런 TensorRT-LLM
Meta Llama 3 8B	INT4-AWQ INT8-SmoothQuant FP8	예	예	AWS뉴런 TensorRT-LLM
Meta Llama 3 8B Instruct	INT4-AWQ INT8-SmoothQuant FP8	예	예	AWS뉴런 TensorRT-LLM
메타 코드 Llama 13B	INT4-AWQ INT8-SmoothQuant FP8	예	예	TensorRT-LLM
메타 코드 Llama 13B Instruct	INT4-AWQ INT8-SmoothQuant FP8	예	예	TensorRT-LLM
메타 코드 Llama 13B Python	INT4-AWQ INT8-SmoothQuant FP8	예	예	TensorRT-LLM
메타 코드 Llama 34B	INT4-AWQ INT8-SmoothQuant FP8	예	예	TensorRT-LLM
메타 코드 Llama 34B Instruct	INT4-AWQ INT8-SmoothQuant FP8	예	예	TensorRT-LLM
메타 코드 Llama 34B Python	INT4-AWQ INT8-SmoothQuant FP8	예	예	TensorRT-LLM
메타 코드 Llama 70B	INT4-AWQ INT8-SmoothQuant FP8	예	예	TensorRT-LLM
메타 코드 Llama 70B Instruct	INT4-AWQ INT8-SmoothQuant FP8	예	예	TensorRT-LLM
메타 코드 Llama 70B Python	INT4-AWQ INT8-SmoothQuant FP8	예	예	TensorRT-LLM
메타 코드 Llama 7B	INT4-AWQ INT8-SmoothQuant FP8	예	예	TensorRT-LLM
메타 코드 Llama 7B Instruct	INT4-AWQ INT8-SmoothQuant FP8	예	예	TensorRT-LLM
메타 코드 Llama 7B Python	INT4-AWQ INT8-SmoothQuant FP8	예	예	TensorRT-LLM
Meta Llama 2 13B Neuron	없음	아니요	아니요	AWS뉴런
Meta Llama 2 13B Chat Neuron	없음	아니요	아니요	AWS뉴런
Meta Llama 2 70B Neuron	없음	아니요	아니요	AWS뉴런
Meta Llama 2 70B Chat Neuron	없음	아니요	아니요	AWS뉴런
Meta Llama 2 7B Neuron	없음	아니요	아니요	AWS뉴런
Meta Llama 2 7B Chat Neuron	없음	아니요	아니요	AWS뉴런
Meta Llama 3 70B Neuron	없음	아니요	아니요	AWS뉴런
Meta Llama 3 70B Instruct Neuron	없음	아니요	아니요	AWS뉴런
Meta Llama 3 8B Neuron	없음	아니요	아니요	AWS뉴런
Meta Llama 3 8B Instruct Neuron	없음	아니요	아니요	AWS뉴런
메타 코드 Llama 70B Neuron	없음	아니요	아니요	AWS뉴런
메타 코드 Llama 7B Neuron	없음	아니요	아니요	AWS뉴런
메타 코드 Llama 7B Python Neuron	없음	아니요	아니요	AWS뉴런
Meta Llama 3.1 405B FP8	없음	예	예	없음
Meta Llama 3.1 405B Instruct FP8	없음	예	예	없음
Meta Llama 3.1 70B	INT4-AWQ FP8	예	예	없음
Meta Llama 3.1 70B Instruct	INT4-AWQ FP8	예	예	없음
Meta Llama 3.1 8B	INT4-AWQ FP8	예	예	없음
Meta Llama 3.1 8B Instruct	INT4-AWQ FP8	예	예	없음
Meta Llama 3.1 70B Neuron	없음	아니요	아니요	AWS뉴런
Meta Llama 3.1 70B Instruct Neuron	없음	아니요	아니요	AWS뉴런
Meta Llama 3 1 8B Neuron	없음	아니요	아니요	AWS뉴런
Meta Llama 3.1 8B Instruct Neuron	없음	아니요	아니요	AWS뉴런

지원되는 Mistral 모델
모델 이름	양자화에 지원되는 데이터 형식	추론 디코딩 지원	고속 모델 로드 지원	컴파일에 사용되는 라이브러리
Mistral 7B	INT4-AWQ INT8-SmoothQuant FP8	예	예	AWS뉴런 TensorRT-LLM
Mistral 7B 지침	INT4-AWQ INT8-SmoothQuant FP8	예	예	AWS뉴런 TensorRT-LLM
Mistral 7B Neuron	없음	아니요	아니요	AWS뉴런
Mistral 7B Instruct Neuron	없음	아니요	아니요	AWS뉴런

지원되는 Mixtral 모델
모델 이름	양자화에 지원되는 데이터 형식	추론 디코딩 지원	고속 모델 로드 지원	컴파일에 사용되는 라이브러리
Mixtral-8x22B-Instruct-v0.1	INT4-AWQ INT8-SmoothQuant FP8	예	예	TensorRT-LLM
Mixtral-8x22B V1	INT4-AWQ INT8-SmoothQuant FP8	예	예	TensorRT-LLM
Mixtral 8x7B	INT4-AWQ INT8-SmoothQuant FP8	예	예	TensorRT-LLM
Mixtral 8x7B Instruct	INT4-AWQ INT8-SmoothQuant FP8	예	예	TensorRT-LLM

지원되는 모델 아키텍처 및 EAGLE 유형
모델 아키텍처 이름	이글 유형
LlamaForCausalLM	이글 3
Qwen3ForCausalLM	이글 3
Qwen3NextForCausalLM	이글 2
Qwen3MoeForCausalLM	이글 3
Qwen2ForCausalLM	이글 3
GptOssForCausalLM	이글 3

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

성능 평가

모델 평가를 위한 옵션