기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon SageMaker HyperPod에서 GPU 파티션 사용
클러스터 관리자는 조직 전체에서 GPU 사용률을 극대화하는 방법을 선택할 수 있습니다. NVIDIA 다중 인스턴스 GPU(MIG) 기술로 GPU 파티셔닝을 활성화하여 GPU 리소스를 더 작고 격리된 인스턴스로 파티셔닝하여 리소스 사용률을 높일 수 있습니다. 이 기능을 사용하면 전체 하드웨어를 사용률이 낮은 단일 작업에 전용하는 대신 단일 GPU에서 여러 개의 작은 규모의 작업을 동시에 실행할 수 있습니다. 이렇게 하면 컴퓨팅 성능과 메모리가 낭비되지 않습니다.
MIG 기술을 사용한 GPU 파티셔닝은 GPUs 지원하며 지원되는 단일 GPU를 최대 7개의 개별 GPU 파티션으로 파티셔닝할 수 있습니다. 각 GPU 파티션에는 전용 메모리, 캐시 및 컴퓨팅 리소스가 있어 예측 가능한 격리를 제공합니다.
이점
-
GPU 사용률 개선 - 컴퓨팅 및 메모리 요구 사항에 따라 GPUs 파티셔닝하여 컴퓨팅 효율성 극대화
-
작업 격리 - 각 GPU 파티션은 전용 메모리, 캐시 및 컴퓨팅 리소스와 독립적으로 작동합니다.
-
작업 유연성 - 단일 물리적 GPU에서 모두 병렬로 실행되는 작업 혼합 지원
-
유연한 설정 관리 - Kubernetes 명령줄 클라이언트를 사용하여 DIY(Do-it-yourself) Kubernetes 구성
kubectl과 GPU 파티션과 연결된 레이블을 쉽게 구성하고 적용할 수 있는 사용자 지정 레이블이 있는 관리형 솔루션을 모두 지원합니다.
지원되는 인스턴스 유형
MIG 기술을 사용한 GPU 파티셔닝은 다음 HyperPod 인스턴스 유형에서 지원됩니다.
A100 GPU 인스턴스 - https://aws.amazon.com/ec2/instance-types/p4/
-
ml.p4d.24xlarge - NVIDIA A100 GPUs(GPU당 80GB HBM2e)
-
ml.p4de.24xlarge - NVIDIA A100 GPUs(GPU당 80GB HBM2e)
H100 GPU 인스턴스 - https://aws.amazon.com/ec2/instance-types/p5/
-
ml.p5.48xlarge - NVIDIA H100 GPUs(GPU당 80GB HBM3)
H200 GPU 인스턴스 - https://aws.amazon.com/ec2/instance-types/p5/
-
ml.p5e.48xlarge - NVIDIA H200 GPUs(GPU당 141GB HBM3e)
-
ml.p5en.48xlarge - NVIDIA H200 GPUs(GPU당 141GB HBM3e)
B200 GPU 인스턴스 - https://aws.amazon.com/ec2/instance-types/p6/
-
ml.p6b.48xlarge - NVIDIA B200 GPUs
GPU 파티션
NVIDIA MIG 프로파일은 GPUs 분할되는 방법을 정의합니다. 각 프로필은 MIG 인스턴스당 컴퓨팅 및 메모리 할당을 지정합니다. 다음은 각 GPU 유형과 연결된 MIG 프로파일입니다.
A100 GPU(ml.p4d.24xlarge)
| 프로필 | 메모리(GB) | GPU당 인스턴스 수 | ml.p4d.24xlarge당 합계 |
|---|---|---|---|
|
5 |
7 |
56 |
|
10 |
3 |
24 |
|
20 |
2 |
16 |
|
20 |
1 |
8 |
|
40 |
1 |
8 |
H100 GPU(ml.p5.48xlarge)
| 프로필 | 메모리(GB) | GPU당 인스턴스 수 | ml.p5.48xlarge당 합계 |
|---|---|---|---|
|
10 |
7 |
56 |
|
20 |
4 |
32 |
|
20 |
3 |
24 |
|
40 |
2 |
16 |
|
40 |
1 |
8 |
|
80 |
1 |
8 |
H200 GPU(ml.p5e.48xlarge 및 ml.p5en.48xlarge)
| 프로필 | 메모리(GB) | GPU당 인스턴스 수 | ml.p5en.48xlarge당 합계 |
|---|---|---|---|
|
18 |
7 |
56 |
|
35 |
4 |
32 |
|
35 |
3 |
24 |
|
71 |
2 |
16 |
|
71 |
1 |
8 |
|
141 |
1 |
8 |