기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
지원되는 모델 참조
다음 표에는 SageMaker AI가 추론 최적화를 지원하는 모델과 지원되는 최적화 기술이 나와 있습니다.
| 모델 이름 | 퀀타이즈에 지원되는 데이터 형식 | 추론 디코딩 지원 | 빠른 모델 로드 지원 | 컴파일에 사용되는 라이브러리 |
|---|---|---|---|---|
| Meta Llama 2 13B |
INT4-AWQ INT8-SmoothQuant FP8 |
예 | 예 |
AWS 뉴런 TensorRT-LLM |
| Meta Llama 2 13B 채팅 |
INT4-AWQ INT8-SmoothQuant FP8 |
예 | 예 |
AWS 뉴런 TensorRT-LLM |
| Meta Llama 2 70B |
INT4-AWQ INT8-SmoothQuant FP8 |
예 | 예 |
AWS 뉴런 TensorRT-LLM |
| Meta Llama 2 70B 채팅 |
INT4-AWQ INT8-SmoothQuant FP8 |
예 | 예 |
AWS 뉴런 TensorRT-LLM |
| Meta Llama 2 7B |
INT4-AWQ INT8-SmoothQuant FP8 |
예 | 예 |
AWS 뉴런 TensorRT-LLM |
| Meta Llama 2 7B 채팅 |
INT4-AWQ INT8-SmoothQuant FP8 |
예 | 예 |
AWS 뉴런 TensorRT-LLM |
| Meta Llama 3 70B |
INT4-AWQ INT8-SmoothQuant FP8 |
예 | 예 |
AWS 뉴런 TensorRT-LLM |
| Meta Llama 3 70B 지침 |
INT4-AWQ INT8-SmoothQuant FP8 |
예 | 예 |
AWS 뉴런 TensorRT-LLM |
| Meta Llama 3 8B |
INT4-AWQ INT8-SmoothQuant FP8 |
예 | 예 |
AWS 뉴런 TensorRT-LLM |
| Meta Llama 3 8B 지침 |
INT4-AWQ INT8-SmoothQuant FP8 |
예 | 예 |
AWS 뉴런 TensorRT-LLM |
| 메타 코드 Llama 13B |
INT4-AWQ INT8-SmoothQuant FP8 |
예 | 예 |
TensorRT-LLM |
| 메타 코드 Llama 13B 지침 |
INT4-AWQ INT8-SmoothQuant FP8 |
예 | 예 |
TensorRT-LLM |
| 메타 코드 Llama 13B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
예 | 예 |
TensorRT-LLM |
| 메타 코드 Llama 34B |
INT4-AWQ INT8-SmoothQuant FP8 |
예 | 예 |
TensorRT-LLM |
| 메타 코드 Llama 34B 지침 |
INT4-AWQ INT8-SmoothQuant FP8 |
예 | 예 |
TensorRT-LLM |
| 메타 코드 Llama 34B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
예 | 예 |
TensorRT-LLM |
| 메타 코드 Llama 70B |
INT4-AWQ INT8-SmoothQuant FP8 |
예 | 예 |
TensorRT-LLM |
| 메타 코드 Llama 70B 지침 |
INT4-AWQ INT8-SmoothQuant FP8 |
예 | 예 |
TensorRT-LLM |
| 메타 코드 Llama 70B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
예 | 예 |
TensorRT-LLM |
| 메타 코드 Llama 7B |
INT4-AWQ INT8-SmoothQuant FP8 |
예 | 예 |
TensorRT-LLM |
| 메타 코드 Llama 7B 지침 |
INT4-AWQ INT8-SmoothQuant FP8 |
예 | 예 |
TensorRT-LLM |
| 메타 코드 Llama 7B Python |
INT4-AWQ INT8-SmoothQuant FP8 |
예 | 예 |
TensorRT-LLM |
| Meta Llama 2 13B Neuron | 없음 | 아니요 | 아니요 |
AWS 뉴런 |
| Meta Llama 2 13B Chat Neuron | 없음 | 아니요 | 아니요 |
AWS 뉴런 |
| Meta Llama 2 70B Neuron | 없음 | 아니요 | 아니요 |
AWS 뉴런 |
| Meta Llama 2 70B Chat Neuron | 없음 | 아니요 | 아니요 |
AWS 뉴런 |
| Meta Llama 2 7B Neuron | 없음 | 아니요 | 아니요 |
AWS 뉴런 |
| Meta Llama 2 7B Chat Neuron | 없음 | 아니요 | 아니요 |
AWS 뉴런 |
| Meta Llama 3 70B Neuron | 없음 | 아니요 | 아니요 |
AWS 뉴런 |
| Meta Llama 3 70B Instruct Neuron | 없음 | 아니요 | 아니요 |
AWS 뉴런 |
| Meta Llama 3 8B Neuron | 없음 | 아니요 | 아니요 |
AWS 뉴런 |
| Meta Llama 3 8B Instruct Neuron | 없음 | 아니요 | 아니요 |
AWS 뉴런 |
| 메타 코드 Llama 70B Neuron | 없음 | 아니요 | 아니요 |
AWS 뉴런 |
| 메타 코드 Llama 7B Neuron | 없음 | 아니요 | 아니요 |
AWS 뉴런 |
| 메타 코드 Llama 7B Python Neuron | 없음 | 아니요 | 아니요 |
AWS 뉴런 |
| Meta Llama 3.1 405B FP8 | 없음 | 예 | 예 |
없음 |
| Meta Llama 3.1 405B 명령 FP8 | 없음 | 예 | 예 |
없음 |
| Meta Llama 3.1 70B |
INT4-AWQ FP8 |
예 | 예 |
없음 |
| Meta Llama 3.1 70B 지침 |
INT4-AWQ FP8 |
예 | 예 |
없음 |
| Meta Llama 3.1 8B |
INT4-AWQ FP8 |
예 | 예 |
없음 |
| Meta Llama 3.1 8B 지침 |
INT4-AWQ FP8 |
예 | 예 |
없음 |
| Meta Llama 3.1 70B Neuron | 없음 | 아니요 | 아니요 |
AWS 뉴런 |
| Meta Llama 3.1 70B Instruct Neuron | 없음 | 아니요 | 아니요 |
AWS 뉴런 |
| Meta Llama 3 1 8B Neuron | 없음 | 아니요 | 아니요 |
AWS 뉴런 |
| Meta Llama 3.1 8B Instruct Neuron | 없음 | 아니요 | 아니요 |
AWS 뉴런 |
| 모델 이름 | 퀀타이즈에 지원되는 데이터 형식 | 추론 디코딩 지원 | 빠른 모델 로드 지원 | 컴파일에 사용되는 라이브러리 |
|---|---|---|---|---|
| Mistral 7B |
INT4-AWQ INT8-SmoothQuant FP8 |
예 | 예 |
AWS 뉴런 TensorRT-LLM |
| Mistral 7B 지침 |
INT4-AWQ INT8-SmoothQuant FP8 |
예 | 예 |
AWS 뉴런 TensorRT-LLM |
| Mistral 7B Neuron | 없음 | 아니요 | 아니요 |
AWS 뉴런 |
| Mistral 7B Instruct Neuron | 없음 | 아니요 | 아니요 |
AWS 뉴런 |
| 모델 이름 | 퀀타이즈에 지원되는 데이터 형식 | 추론 디코딩 지원 | 빠른 모델 로드 지원 | 컴파일에 사용되는 라이브러리 |
|---|---|---|---|---|
| Mixtral-8x22B-Instruct-v0.1 |
INT4-AWQ INT8-SmoothQuant FP8 |
예 | 예 |
TensorRT-LLM |
| Mixtral-8x22B V1 |
INT4-AWQ INT8-SmoothQuant FP8 |
예 | 예 |
TensorRT-LLM |
| Mixtral 8x7B |
INT4-AWQ INT8-SmoothQuant FP8 |
예 | 예 |
TensorRT-LLM |
| Mixtral 8x7B Instruct |
INT4-AWQ INT8-SmoothQuant FP8 |
예 | 예 |
TensorRT-LLM |