HyperPod 관리형 티어 체크포인트 지정 - Amazon SageMaker AI

HyperPod 관리형 티어 체크포인트 지정

이 섹션에서는 관리형 티어 체크포인트 지정의 작동 방식과 대규모 모델 훈련에 제공하는 이점을 설명합니다.

Amazon SageMaker HyperPod 관리형 티어 체크포인트 지정은 대규모 생성형 AI 모델을 보다 효율적으로 훈련하는 데 도움이 됩니다. 클러스터의 CPU 메모리를 포함하여 여러 스토리지 티어를 사용합니다. 이 접근 방식은 복구 시간을 줄이고 훈련 진행 중 손실을 최소화합니다. 또한 훈련 인프라에서 사용률이 낮은 메모리 리소스를 사용합니다.

관리형 계층 체크포인트 지정을 사용하면 체크포인트를 메모리에 더 높은 빈도로 저장할 수 있습니다. 내구성 있는 스토리지에 주기적으로 저장합니다. 이렇게 하면 훈련 프로세스 중에 성능과 신뢰성을 모두 유지할 수 있습니다.

이 가이드에서는 Amazon EKS HyperPod 클러스터에서 PyTorch 프레임워크를 사용하여 관리형 티어 체크포인트 지정을 설정, 구성 및 사용하는 방법을 다룹니다.

관리형 티어 체크포인트 지정 작동 방식

관리형 티어 체크포인트 지정은 다중 티어 스토리지 접근 방식을 사용합니다. CPU 메모리는 모델 체크포인트를 저장하는 기본 티어 역할을 합니다. 보조 티어에는 Amazon S3와 같은 영구 스토리지 옵션이 포함됩니다.

체크포인트를 저장하면 시스템은 클러스터 노드에 할당된 메모리 스페이스에 체크포인트를 저장합니다. 신뢰성을 높이기 위해 인접한 컴퓨팅 노드에 데이터를 자동으로 복제합니다. 이 복제 전략은 복구 작업에 대한 빠른 액세스를 제공하면서 단일 또는 다중 노드 장애로부터 보호합니다.

또한 시스템은 구성에 따라 체크포인트를 영구 스토리지에 주기적으로 저장합니다. 이렇게 하면 훈련 진행 상황을 장기적으로 유지할 수 있습니다.

주요 구성 요소에는 다음이 포함됩니다.

  • 메모리 관리 시스템: 체크포인트 스토리지의 서비스로 분리된 메모리를 제공하는 메모리 관리 대몬

  • HyperPod Python 라이브러리: 분리된 스토리지 API와 인터페이스하며 티어 간에 체크포인트를 저장, 로드 및 관리하기 위한 유틸리티 제공

  • 체크포인트 복제: 내결함성을 위해 여러 노드에 체크포인트를 자동으로 복제

시스템은 간단한 API 직접 호출을 통해 PyTorch 훈련 루프와 원활하게 통합됩니다. 기존 코드 변경은 거의 필요하지 않습니다.

이점

관리형 티어 체크포인트 지정은 대규모 모델 훈련에 몇 가지 이점을 제공합니다.

  • 사용성 개선: 체크포인트 저장, 복제, 지속성 및 복구 관리

  • 더 빠른 체크포인트 작업: 메모리 기반 스토리지는 디스크 기반 체크포인트 지정에 비해 더 빠른 저장 및 로드 시간을 제공하므로 복구 속도가 빨라짐

  • 내결함성: 노드 간 자동 체크포인트 복제는 하드웨어 노드 장애로부터 보호함

  • 코드 변경 최소화: 간단한 API 통합을 위해서는 기존 훈련 스크립트를 약간만 수정하면 됨

  • 훈련 처리량 개선: 체크포인트 오버헤드 감소로 실제 훈련에 더 많은 시간을 할애할 수 있음