기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# Amazon SageMaker HyperPod에서 GPU 파티션 사용
<a name="sagemaker-hyperpod-eks-gpu-partitioning"></a>

클러스터 관리자는 조직 전체에서 GPU 사용률을 극대화하는 방법을 선택할 수 있습니다. NVIDIA 다중 인스턴스 GPU(MIG) 기술로 GPU 파티셔닝을 활성화하여 GPU 리소스를 더 작고 격리된 인스턴스로 파티셔닝하여 리소스 사용률을 높일 수 있습니다. 이 기능을 사용하면 전체 하드웨어를 사용률이 낮은 단일 작업에 전용하는 대신 단일 GPU에서 여러 개의 작은 규모의 작업을 동시에 실행할 수 있습니다. 이렇게 하면 컴퓨팅 성능과 메모리가 낭비되지 않습니다.

MIG 기술을 사용한 GPU 파티셔닝은 GPUs 지원하며 지원되는 단일 GPU를 최대 7개의 개별 GPU 파티션으로 파티셔닝할 수 있습니다. 각 GPU 파티션에는 전용 메모리, 캐시 및 컴퓨팅 리소스가 있어 예측 가능한 격리를 제공합니다.

## 이점
<a name="sagemaker-hyperpod-eks-gpu-partitioning-benefits"></a>
+ **GPU 사용률 개선** - 컴퓨팅 및 메모리 요구 사항에 따라 GPUs를 분할하여 컴퓨팅 효율성 극대화
+ **작업 격리** - 각 GPU 파티션은 전용 메모리, 캐시 및 컴퓨팅 리소스와 독립적으로 작동합니다.
+ **작업 유연성** - 단일 물리적 GPU에서 모두 병렬로 실행되는 작업 혼합 지원
+ **유연한 설정 관리** - Kubernetes 명령줄 클라이언트를 사용하여 DIY(Do-it-yourself) Kubernetes 구성`kubectl`과 GPU 파티션과 연결된 레이블을 쉽게 구성하고 적용할 수 있는 사용자 지정 레이블이 있는 관리형 솔루션을 모두 지원합니다.

**중요**  
MIG를 사용한 GPU 파티셔닝은 유연한 인스턴스 그룹(를 사용하는 인스턴스 그룹)에서는 지원되지 않습니다`InstanceRequirements`. MIG를 사용하려면 단일 로 인스턴스 그룹을 생성합니다`InstanceType`.

## 지원되는 인스턴스 유형
<a name="sagemaker-hyperpod-eks-gpu-partitioning-instance-types"></a>

MIG 기술을 사용한 GPU 파티셔닝은 다음 HyperPod 인스턴스 유형에서 지원됩니다.

**A100 GPU 인스턴스** - [https://aws.amazon.com/ec2/instance-types/p4/](https://aws.amazon.com/ec2/instance-types/p4/)
+ **ml.p4d.24xlarge** - NVIDIA A100 GPUs(GPU당 80GB HBM2e)
+ **ml.p4de.24xlarge** - NVIDIA A100 GPUs(GPU당 80GB HBM2e)

**H100 GPU 인스턴스** - [https://aws.amazon.com/ec2/instance-types/p5/](https://aws.amazon.com/ec2/instance-types/p5/)
+ **ml.p5.48xlarge** - NVIDIA H100 GPUs(GPU당 80GB HBM3)

**H200 GPU 인스턴스** - [https://aws.amazon.com/ec2/instance-types/p5/](https://aws.amazon.com/ec2/instance-types/p5/)
+ **ml.p5e.48xlarge** - NVIDIA H200 GPUs(GPU당 141GB HBM3e)
+ **ml.p5en.48xlarge** - NVIDIA H200 GPUs(GPU당 141GB HBM3e)

**B200 GPU 인스턴스** - [https://aws.amazon.com/ec2/instance-types/p6/](https://aws.amazon.com/ec2/instance-types/p6/)
+ **ml.p6b.48xlarge** - NVIDIA B200 GPUs

## GPU 파티션
<a name="sagemaker-hyperpod-eks-gpu-partitioning-profiles"></a>

NVIDIA MIG 프로파일은 GPUs 분할하는 방법을 정의합니다. 각 프로필은 MIG 인스턴스당 컴퓨팅 및 메모리 할당을 지정합니다. 다음은 각 GPU 유형과 연결된 MIG 프로파일입니다.

**A100 GPU(ml.p4d.24xlarge)**


| 프로필 | 메모리(GB) | GPU당 인스턴스 수 | ml.p4d.24xlarge당 합계 | 
| --- | --- | --- | --- | 
| `1g.5gb` | 5 | 7 | 56 | 
| `2g.10gb` | 10 | 3 | 24 | 
| `3g.20gb` | 20 | 2 | 16 | 
| `4g.20gb` | 20 | 1 | 8 | 
| `7g.40gb` | 40 | 1 | 8 | 

**H100 GPU(ml.p5.48xlarge)**


| 프로필 | 메모리(GB) | GPU당 인스턴스 수 | ml.p5.48xlarge당 합계 | 
| --- | --- | --- | --- | 
| `1g.10gb` | 10 | 7 | 56 | 
| `1g.20gb` | 20 | 4 | 32 | 
| `2g.20gb` | 20 | 3 | 24 | 
| `3g.40gb` | 40 | 2 | 16 | 
| `4g.40gb` | 40 | 1 | 8 | 
| `7g.80gb` | 80 | 1 | 8 | 

**H200 GPU(ml.p5e.48xlarge 및 ml.p5en.48xlarge)**


| 프로필 | 메모리(GB) | GPU당 인스턴스 수 | ml.p5en.48xlarge당 합계 | 
| --- | --- | --- | --- | 
| `1g.18gb` | 18 | 7 | 56 | 
| `1g.35gb` | 35 | 4 | 32 | 
| `2g.35gb` | 35 | 3 | 24 | 
| `3g.71gb` | 71 | 2 | 16 | 
| `4g.71gb` | 71 | 1 | 8 | 
| `7g.141gb` | 141 | 1 | 8 | 

**Topics**
+ [이점](#sagemaker-hyperpod-eks-gpu-partitioning-benefits)
+ [지원되는 인스턴스 유형](#sagemaker-hyperpod-eks-gpu-partitioning-instance-types)
+ [GPU 파티션](#sagemaker-hyperpod-eks-gpu-partitioning-profiles)
+ [Amazon SageMaker HyperPod에서 GPU 파티션 설정](sagemaker-hyperpod-eks-gpu-partitioning-setup.md)
+ [노드 수명 주기 및 레이블](sagemaker-hyperpod-eks-gpu-partitioning-labels.md)
+ [MIG를 사용한 작업 제출](sagemaker-hyperpod-eks-gpu-partitioning-task-submission.md)