Amazon SageMaker HyperPod 빠른 시작 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon SageMaker HyperPod 빠른 시작

이 빠른 시작은 Slurm 및 Amazon EKS(EKS) 오케스트레이션을 사용하여 첫 번째 HyperPod 클러스터를 생성하는 방법을 안내합니다. SageMaker HyperPod를 시작하는 데 필요한 인프라에 가장 적합한 오케스트레이션을 선택합니다.

Slurm 오케스트레이션 SageMaker HyperPod 클러스터 생성

다음 단계에 따라 Slurm 오케스트레이션을 사용하여 첫 번째 SageMaker HyperPod 클러스터를 생성합니다.

  1. https://console.aws.amazon.com/sagemaker/ Amazon SageMaker AI 콘솔을 엽니다.

  2. 왼쪽 탐색 창에서 HyperPod 클러스터를 선택한 다음 클러스터 관리를 선택합니다.

  3. SageMaker HyperPod 클러스터 페이지에서 HyperPod 클러스터 생성을 선택합니다.

  4. HyperPod 클러스터 생성 드롭다운에서 Slurm에서 오케스트레이션을 선택합니다.

  5. 클러스터 생성 페이지에서 빠른 설정을 선택합니다. 이 옵션을 사용하면 기본 설정을 즉시 시작할 수 있습니다. SageMaker AI는 클러스터를 생성하는 과정에서 VPC, 서브넷, 보안 그룹, Amazon S3 버킷, IAM 역할 및 FSx for Lustre와 같은 새 리소스를 생성합니다.

  6. 일반 설정에서 새 클러스터의 이름을 지정합니다. 클러스터가 생성된 후에는 이름을 변경할 수 없습니다.

  7. 인스턴스 그룹에서 그룹 추가를 선택합니다. 각 인스턴스 그룹을 다르게 구성할 수 있으며 다양한 인스턴스 유형을 가진 여러 인스턴스 그룹으로 구성된 이종 클러스터를 생성할 수 있습니다. 클러스터를 배포하려면 인스턴스 그룹을 하나 이상 추가해야 합니다. 한 번에 하나의 인스턴스 그룹을 추가할 수 있습니다. 여러 인스턴스 그룹을 생성하려면 각 인스턴스 그룹에 대해 프로세스를 반복합니다.

    다음 단계에 따라 인스턴스 그룹을 추가합니다.

    1. 인스턴스 그룹 유형에서 인스턴스 그룹의 유형을 선택합니다. 이 빠른 시작을 위해의 경우 컨트롤러(헤드),의 경우 my-controller-group 로그인my-login-group,의 경우 컴퓨팅(작업자)을 선택합니다worker-group-1.

    2. 이름에 인스턴스 그룹의 이름을 지정합니다. 이 빠른 시작을 위해 , my-login-group및 라는 인스턴스 그룹 my-controller-group3개를 생성합니다worker-group-1.

    3. 인스턴스 용량에서 온디맨드 용량 또는 훈련 계획을 선택하여 컴퓨팅 리소스를 예약합니다.

    4. 인스턴스 유형에서 인스턴스 그룹의 인스턴스를 선택합니다. 이 빠른 시작의 경우 ml.c5.xlarge에 대해 , my-controller-groupml.m5.4xlarge에 대해 my-login-group,에 ml.trn1.32xlarge 대해를 선택합니다worker-group-1.

      계정에 충분한 할당량이 있는 인스턴스 유형을 선택하거나의 지침에 따라 추가 할당량을 요청해야 합니다SageMaker HyperPod 할당량.

    5. 인스턴스 수량에서 클러스터 사용량에 대한 인스턴스 할당량을 초과하지 않는 정수를 지정합니다. 이 빠른 시작의 경우 세 그룹 모두에 1을 입력합니다.

    6. 대상 가용 영역에서 인스턴스를 프로비저닝할 가용 영역을 선택합니다. 가용 영역은 가속화된 컴퓨팅 용량의 위치와 일치해야 합니다.

    7. 인스턴스당 추가 스토리지 볼륨(GB) - 선택 사항의 경우 1~16384 사이의 정수를 지정하여 추가 Elastic Block Store(EBS) 볼륨의 크기를 기가바이트(GB) 단위로 설정합니다. EBS 볼륨은 인스턴스 그룹의 각 인스턴스에 연결됩니다. 추가 EBS 볼륨의 기본 탑재 경로는 /opt/sagemaker입니다. 클러스터가 성공적으로 생성된 후 클러스터 인스턴스(노드)에 SSH를 넣고 df -h 명령을 실행하여 EBS 볼륨이 올바르게 마운트되었는지 확인할 수 있습니다. 추가 EBS 볼륨을 연결하면 Amazon Elastic Block Store 사용 설명서Amazon EBS 볼륨 섹션에 설명된 대로 안정적이고 인스턴스가 아니며 독립적으로 지속되는 스토리지가 제공됩니다.

    8. 인스턴스 그룹 추가를 선택합니다.

  8. 빠른 구성 기본값에서 기본 설정을 검토합니다. 이 섹션에는 클러스터 생성 프로세스 중에 생성될 모든 새 AWS 리소스를 포함하여 클러스터 생성에 대한 모든 기본 설정이 나열됩니다.

  9. 제출을 선택합니다.

자세한 내용은 SageMaker AI 콘솔을 사용하여 SageMaker HyperPod 시작하기 단원을 참조하십시오.

EKS 오케스트레이션 SageMaker HyperPod 클러스터 생성

다음 단계에 따라 Amazon EKS 오케스트레이션을 사용하여 첫 번째 SageMaker HyperPod 클러스터를 생성합니다.

  1. https://console.aws.amazon.com/sagemaker/ Amazon SageMaker AI 콘솔을 엽니다.

  2. 왼쪽 탐색 창에서 HyperPod 클러스터를 선택한 다음 클러스터 관리를 선택합니다.

  3. SageMaker HyperPod 클러스터 페이지에서 HyperPod 클러스터 생성을 선택합니다.

  4. HyperPod 클러스터 생성 드롭다운에서 Amazon EKS에서 오케스트레이션을 선택합니다.

  5. 클러스터 생성 페이지에서 빠른 구성을 선택합니다. 이 옵션을 사용하면 기본 설정으로 즉시 시작할 수 있습니다. SageMaker AI는 클러스터를 생성하는 과정에서 VPC, 서브넷, 보안 그룹, Amazon S3 버킷, IAM 역할 및 FSx for Lustre와 같은 새 리소스를 생성합니다.

  6. 일반 설정에서 새 클러스터의 이름을 지정합니다. 클러스터가 생성된 후에는 이름을 변경할 수 없습니다.

  7. 인스턴스 그룹에서 그룹 추가를 선택합니다. 각 인스턴스 그룹을 다르게 구성할 수 있으며 다양한 인스턴스 유형을 가진 여러 인스턴스 그룹으로 구성된 이종 클러스터를 생성할 수 있습니다. 클러스터를 배포하려면 인스턴스 그룹을 하나 이상 추가해야 합니다. 한 번에 하나의 인스턴스 그룹을 추가할 수 있습니다. 여러 인스턴스 그룹을 생성하려면 각 인스턴스 그룹에 대해 프로세스를 반복합니다.

    다음 단계에 따라 인스턴스 그룹을 추가합니다.

    1. 인스턴스 그룹 유형에서 표준 또는 제한된 인스턴스 그룹(RIG)을 선택합니다. 일반적으로 추가 보안 제한 없이 범용 컴퓨팅 환경을 제공하는 표준을 선택합니다. 제한된 인스턴스 그룹(RIG)은 Amazon Nova와 같은 기본 모델 사용자 지정을 위한 특수 환경입니다. Amazon Nova 모델 사용자 지정을 위한 RIG 설정에 대한 자세한 내용은 섹션을 참조하세요Amazon SageMaker HyperPod의 Amazon Nova 사용자 지정 HyperPod.

    2. 이름에 인스턴스 그룹의 이름을 지정합니다.

    3. 인스턴스 용량에서 온디맨드 용량 또는 훈련 계획을 선택하여 컴퓨팅 리소스를 예약합니다.

    4. 인스턴스 유형에서 인스턴스 그룹의 인스턴스를 선택합니다. 계정에 충분한 할당량이 있는 인스턴스 유형을 선택하거나 SageMaker HyperPod 할당량에서 다음을 수행하여 추가 할당량을 요청해야 합니다.

    5. 인스턴스 수량에서 클러스터 사용량에 대한 인스턴스 할당량을 초과하지 않는 정수를 지정합니다. 이 빠른 시작의 경우 세 그룹 모두에 1을 입력합니다.

    6. 대상 가용 영역에서 인스턴스를 프로비저닝할 가용 영역을 선택합니다. 가용 영역은 가속화된 컴퓨팅 용량의 위치와 일치해야 합니다.

    7. 인스턴스당 추가 스토리지 볼륨(GB) - 선택 사항의 경우 1~16384 사이의 정수를 지정하여 추가 Elastic Block Store(EBS) 볼륨의 크기를 기가바이트(GB) 단위로 설정합니다. EBS 볼륨은 인스턴스 그룹의 각 인스턴스에 연결됩니다. 추가 EBS 볼륨의 기본 탑재 경로는 /opt/sagemaker입니다. 클러스터가 성공적으로 생성된 후 클러스터 인스턴스(노드)에 SSH를 넣고 df -h 명령을 실행하여 EBS 볼륨이 올바르게 마운트되었는지 확인할 수 있습니다. 추가 EBS 볼륨을 연결하면 Amazon Elastic Block Store 사용 설명서Amazon EBS 볼륨 섹션에 설명된 대로 안정적이고 인스턴스가 아니며 독립적으로 지속되는 스토리지가 제공됩니다.

    8. 인스턴스 심층 상태 확인에서 옵션을 선택합니다. 심층 상태 확인은 생성 중 및 소프트웨어 업데이트 후 인스턴스 상태를 모니터링하여 활성화되면 재부팅 또는 교체를 통해 결함이 있는 인스턴스를 자동으로 복구합니다.

    9. 인스턴스 그룹 추가를 선택합니다.

  8. 빠른 구성 기본값에서 기본 설정을 검토합니다. 이 섹션에는 클러스터 생성 프로세스 중에 생성될 모든 새 AWS 리소스를 포함하여 클러스터 생성에 대한 모든 기본 설정이 나열됩니다.

  9. 제출을 선택합니다.

자세한 내용은 Amazon EKS 오케스트레이션을 사용하여 SageMaker HyperPod 클러스터 생성 단원을 참조하십시오.

워크로드 제출

이 워크숍 자습서에 따라 샘플 워크로드를 제출합니다.