제한된 인스턴스 그룹(RIG)을 포함하는 HyperPod EKS 클러스터 생성 - Amazon SageMaker AI

제한된 인스턴스 그룹(RIG)을 포함하는 HyperPod EKS 클러스터 생성

이 주제에서는 제한된 인스턴스 그룹(RIG)을 포함하는 Amazon SageMaker HyperPod EKS 클러스터를 생성하는 단계를 다룹니다. SageMaker HyperPod EKS 클러스터의 RIG 구성은 Amazon Nova 모델 훈련을 위한 특수 환경을 제공합니다. RIG에는 다음과 같은 제한 사항이 있습니다.

  • RIG 워크로드는 인터넷이 없는 VPC에서 실행되며 모든 수신 및 송신은 엄격하게 규제됩니다.

  • RIG에는 Nova 모델 훈련을 위한 안전한 환경을 보장하기 위해 kubectl exec 및 로그와 같은 Kubernetes 기능의 관찰성에 대한 제한이 있습니다.

  • RIG는 Nova 사용자 지정 이미지만 허용하며 다른 이미지와 함께 실행되는 작업은 거부됩니다.

HyperPod EKS 클러스터에서 인스턴스 그룹을 설정할 때 RIG를 생성할 수 있습니다. 이러한 리소스의 크기와 규모 조정을 제어할 수 있지만 워커 노드에 직접 액세스할 수는 없습니다. 이 아키텍처는 Nova 구성 요소(모델 가중치, 체크포인트, 훈련 데이터 및 코드)가 규제 채널 및 서비스 관리형 계정 시스템을 통해서만 액세스할 수 있도록 합니다.

SageMaker HyperPod의 Nova 모델 사용자 지정은 서비스 관리형 FSx for Lustre 파일 시스템을 사용하여 최적의 성능을 달성합니다. RIG를 생성할 때 인스턴스 그룹의 모든 워커 노드에 마운트될 FSx for Lustre 파일 시스템의 볼륨 크기와 처리량을 지정해야 합니다. FSx for Lustre는 분산 훈련 중에 중간 체크포인트와 내부 모델 상태를 저장하는 데 사용됩니다. 레시피에 제공된 지침에 따라 적절한 볼륨 크기와 처리량을 선택하여 충분한 용량과 성능을 보장합니다. FSx for Lustre 사용 비용이 AWS 계정에 적용됩니다.

HyperPod EKS 클러스터의 RIG에 대한 중요 참고 사항

  • RIG는 권한에 대한 실행 역할만 지원합니다. 실행 역할에 Amazon S3에 대한 액세스 권한과 같은 필요한 IAM 권한이 포함되어 있는지 확인합니다.

  • 서비스 관리형 Amazon FSx for Lustre 및 Amazon S3를 사용하는 경우 FSx for Lustre 파일 시스템이 워크로드에 적합한 크기인지 확인합니다. 훈련 데이터 매니페스트는 실행 역할이 액세스할 수 있어야 하는 Amazon S3에 업로드됩니다.

  • RIG는 2025년 7월 16일 이후에 생성된 새 SageMaker HyperPod EKS 클러스터에서 생성되거나 업데이트되어야 합니다. 이 날짜 이전에 생성된 클러스터에는 RIG에서 지원하지 않는 호환되지 않는 소프트웨어 버전 또는 구성이 포함될 수 있습니다.

  • RIG를 포함하는 HyperPod EKS 클러스터 생성은 AWS 리전: us-east-1에서만 지원됩니다.

제한된 인스턴스 그룹을 포함하는 HyperPod EKS 클러스터 생성(콘솔 - 권장)

이 섹션에서는 AWS Management 콘솔을 사용하여 Amazon Nova 사용자 지정을 위해 제한된 인스턴스 그룹을 포함하는 HyperPod EKS 클러스터를 생성하는 방법에 대한 자세한 지침을 제공합니다. 자세한 내용은 Amazon EKS 오케스트레이션을 사용하여 SageMaker HyperPod 클러스터 생성 섹션을 참조하세요.

참고

클러스터는 us-east-1에 생성해야 합니다. 이 리전이 제한된 인스턴스 그룹을 지원하는 유일한 AWS 리전이기 때문입니다.

  1. https://console.aws.amazon.com/sagemaker/에서 Amazon SageMaker AI 콘솔을 엽니다.

  2. 왼쪽 탐색 창에서 HyperPod 클러스터를 선택하고 클러스터 관리를 선택합니다.

  3. SageMaker HyperPod 클러스터 페이지에서 HyperPod 클러스터 생성을 선택합니다.

  4. HyperPod 클러스터 생성 드롭다운에서 Amazon EKS에 의해 오케스트레이션됨을 선택합니다.

  5. 클러스터 생성 페이지에서 빠른 설정을 선택합니다. 이 옵션을 사용하면 기본 설정으로 즉시 시작할 수 있습니다. SageMaker AI는 클러스터를 생성하는 과정에서 VPC, 서브넷, 보안 그룹, Amazon S3 버킷, IAM 역할 및 FSx for Lustre와 같은 새 리소스를 생성합니다.

  6. 일반 설정에서 새 클러스터의 이름을 지정합니다. 클러스터를 생성한 후에는 이름을 변경할 수 없습니다.

  7. 인스턴스 그룹에서 그룹 추가를 선택합니다. 각 인스턴스 그룹을 다르게 구성할 수 있으며 다양한 인스턴스 유형을 가진 여러 인스턴스 그룹으로 구성된 이종 클러스터를 생성할 수 있습니다. 클러스터를 배포하려면 인스턴스 그룹을 하나 이상 추가해야 합니다. 한 번에 하나의 인스턴스 그룹을 추가할 수 있습니다. 여러 인스턴스 그룹을 생성하려면 각 인스턴스 그룹에 대해 프로세스를 반복합니다.

    이 단계를 따라 인스턴스 그룹을 추가합니다.

    1. 인스턴스 그룹 유형에서 제한된 인스턴스 그룹(RIG)을 선택합니다. 제한된 인스턴스 그룹(RIG)은 Amazon Nova와 같은 파운데이션 모델 사용자 지정을 위한 특수 환경입니다. 표준은 추가 보안 제한 없이 범용 컴퓨팅 환경을 제공합니다.

    2. 이름에 인스턴스 그룹의 이름을 지정합니다.

    3. 인스턴스 용량에서 온디맨드 용량 또는 훈련 계획을 선택하여 컴퓨팅 리소스를 예약합니다.

    4. 인스턴스 유형에서 인스턴스 그룹의 인스턴스를 선택합니다. Amazon Nova 모델 사용자 지정을 지원하는 인스턴스 유형을 선택해야 합니다(예: ml.p5.48xlarge). 또한 AWS 계정에서 할당량이 충분한 인스턴스 유형을 선택해야 합니다. 할당량을 추가로 요청하려면 SageMaker HyperPod 할당량 섹션을 참조하세요.

    5. 인스턴스 수량에서 클러스터 사용에 대한 인스턴스 할당량을 초과하지 않는 정수를 지정합니다. 이 빠른 시작의 경우 생성 중인 제한된 인스턴스에 대해 1을 입력합니다.

    6. 대상 가용 영역에서 인스턴스를 프로비저닝할 가용 영역을 선택합니다. 가용 영역은 가속화된 컴퓨팅 용량의 위치와 일치해야 합니다.

    7. 인스턴스당 추가 스토리지 볼륨(GB) - 선택 사항에서 1~16,384 사이의 정수를 지정하여 추가 Elastic Block Store(EBS) 볼륨의 크기를 기가바이트(GB) 단위로 설정합니다. EBS 볼륨은 인스턴스 그룹의 각 인스턴스에 연결됩니다. 추가 EBS 볼륨의 기본 탑재 경로는 /opt/sagemaker입니다. 클러스터가 성공적으로 생성된 후 클러스터 인스턴스(노드)에 SSH로 연결하여 df -h 명령을 실행하고 EBS 볼륨이 올바르게 마운트되었는지 확인할 수 있습니다. 추가 EBS 볼륨을 연결하면 Amazon Elastic Block Store 사용 설명서Amazon EBS 볼륨 섹션에 설명된 대로 안정적이고 인스턴스가 아니며 독립적으로 지속되는 스토리지가 제공됩니다.

    8. 인스턴스 심층 상태 확인에서 옵션을 선택합니다. 심층 상태 확인은 생성 중 및 소프트웨어 업데이트 후 인스턴스 상태를 모니터링하며, 활성화되면 재부팅 또는 교체를 통해 장애가 있는 인스턴스를 자동으로 복구합니다.

    9. 인스턴스 그룹 추가를 선택합니다.

  8. 빠른 구성 기본값에서 기본 설정을 검토합니다. 이 섹션에는 클러스터 생성 프로세스 중에 생성될 모든 새 AWS 리소스를 포함하여 클러스터 생성에 대한 모든 기본 설정이 나열됩니다.

  9. 제출을 선택합니다.

제한된 인스턴스 그룹을 포함하는 HyperPod EKS 클러스터 생성(CLI)

다음 지침에 따라 AWS CLI를 사용하여 RIG를 포함하는 HyperPod EKS 클러스터를 생성합니다.