Amazon SageMaker HyperPod에서 GPU 파티션 사용

클러스터 관리자는 조직 전체에서 GPU 사용률을 극대화하는 방법을 선택할 수 있습니다. NVIDIA 다중 인스턴스 GPU(MIG) 기술로 GPU 파티셔닝을 활성화하여 GPU 리소스를 더 작고 격리된 인스턴스로 파티셔닝하여 리소스 사용률을 높일 수 있습니다. 이 기능은 전체 하드웨어를 사용률이 낮은 단일 작업에 전용하는 대신 단일 GPU에서 여러 개의 작은 규모의 작업을 동시에 실행할 수 있는 기능을 제공합니다. 이렇게 하면 컴퓨팅 성능과 메모리가 낭비되지 않습니다.

MIG 기술을 사용한 GPU 파티셔닝은 GPUs 지원하며 지원되는 단일 GPU를 최대 7개의 개별 GPU 파티션으로 파티셔닝할 수 있습니다. 각 GPU 파티션에는 전용 메모리, 캐시 및 컴퓨팅 리소스가 있어 예측 가능한 격리를 제공합니다.

이점

GPU 사용률 개선 - 컴퓨팅 및 메모리 요구 사항에 따라 GPUs 파티셔닝하여 컴퓨팅 효율성 극대화
작업 격리 - 각 GPU 파티션은 전용 메모리, 캐시 및 컴퓨팅 리소스와 독립적으로 작동합니다.
작업 유연성 - 단일 물리적 GPU에서 모두 병렬로 실행되는 작업 혼합 지원
유연한 설정 관리 - Kubernetes 명령줄 클라이언트를 사용하여 DIY(Do-it-yourself) Kubernetes 구성kubectl과 GPU 파티션과 연결된 레이블을 쉽게 구성하고 적용할 수 있는 사용자 지정 레이블이 있는 관리형 솔루션을 모두 지원합니다.