Amazon SageMaker HyperPod에서 GPU 파티션 사용 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon SageMaker HyperPod에서 GPU 파티션 사용

클러스터 관리자는 조직 전체에서 GPU 사용률을 극대화하는 방법을 선택할 수 있습니다. NVIDIA 다중 인스턴스 GPU(MIG) 기술로 GPU 파티셔닝을 활성화하여 GPU 리소스를 더 작고 격리된 인스턴스로 파티셔닝하여 리소스 사용률을 높일 수 있습니다. 이 기능을 사용하면 전체 하드웨어를 사용률이 낮은 단일 작업에 전용하는 대신 단일 GPU에서 여러 개의 작은 규모의 작업을 동시에 실행할 수 있습니다. 이렇게 하면 컴퓨팅 성능과 메모리가 낭비되지 않습니다.

MIG 기술을 사용한 GPU 파티셔닝은 GPUs 지원하며 지원되는 단일 GPU를 최대 7개의 개별 GPU 파티션으로 파티셔닝할 수 있습니다. 각 GPU 파티션에는 전용 메모리, 캐시 및 컴퓨팅 리소스가 있어 예측 가능한 격리를 제공합니다.

이점

  • GPU 사용률 개선 - 컴퓨팅 및 메모리 요구 사항에 따라 GPUs 파티셔닝하여 컴퓨팅 효율성 극대화

  • 작업 격리 - 각 GPU 파티션은 전용 메모리, 캐시 및 컴퓨팅 리소스와 독립적으로 작동합니다.

  • 작업 유연성 - 단일 물리적 GPU에서 모두 병렬로 실행되는 작업 혼합 지원

  • 유연한 설정 관리 - Kubernetes 명령줄 클라이언트를 사용하여 DIY(Do-it-yourself) Kubernetes 구성kubectl과 GPU 파티션과 연결된 레이블을 쉽게 구성하고 적용할 수 있는 사용자 지정 레이블이 있는 관리형 솔루션을 모두 지원합니다.

지원되는 인스턴스 유형

MIG 기술을 사용한 GPU 파티셔닝은 다음 HyperPod 인스턴스 유형에서 지원됩니다.

A100 GPU 인스턴스 - https://aws.amazon.com/ec2/instance-types/p4/

  • ml.p4d.24xlarge - NVIDIA A100 GPUs(GPU당 80GB HBM2e)

  • ml.p4de.24xlarge - NVIDIA A100 GPUs(GPU당 80GB HBM2e)

H100 GPU 인스턴스 - https://aws.amazon.com/ec2/instance-types/p5/

  • ml.p5.48xlarge - NVIDIA H100 GPUs(GPU당 80GB HBM3)

H200 GPU 인스턴스 - https://aws.amazon.com/ec2/instance-types/p5/

  • ml.p5e.48xlarge - NVIDIA H200 GPUs(GPU당 141GB HBM3e)

  • ml.p5en.48xlarge - NVIDIA H200 GPUs(GPU당 141GB HBM3e)

B200 GPU 인스턴스 - https://aws.amazon.com/ec2/instance-types/p6/

  • ml.p6b.48xlarge - NVIDIA B200 GPUs

GPU 파티션

NVIDIA MIG 프로파일은 GPUs 분할되는 방법을 정의합니다. 각 프로필은 MIG 인스턴스당 컴퓨팅 및 메모리 할당을 지정합니다. 다음은 각 GPU 유형과 연결된 MIG 프로파일입니다.

A100 GPU(ml.p4d.24xlarge)

프로필 메모리(GB) GPU당 인스턴스 수 ml.p4d.24xlarge당 합계

1g.5gb

5

7

56

2g.10gb

10

3

24

3g.20gb

20

2

16

4g.20gb

20

1

8

7g.40gb

40

1

8

H100 GPU(ml.p5.48xlarge)

프로필 메모리(GB) GPU당 인스턴스 수 ml.p5.48xlarge당 합계

1g.10gb

10

7

56

1g.20gb

20

4

32

2g.20gb

20

3

24

3g.40gb

40

2

16

4g.40gb

40

1

8

7g.80gb

80

1

8

H200 GPU(ml.p5e.48xlarge 및 ml.p5en.48xlarge)

프로필 메모리(GB) GPU당 인스턴스 수 ml.p5en.48xlarge당 합계

1g.18gb

18

7

56

1g.35gb

35

4

32

2g.35gb

35

3

24

3g.71gb

71

2

16

4g.71gb

71

1

8

7g.141gb

141

1

8