기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
SageMaker HyperPod에서 Amazon EKS 지원 시작하기
SageMaker HyperPod에 대한 일반 사항 SageMaker HyperPod 사용을 위한 사전 조건 외에도 Amazon EKS를 사용하여 SageMaker HyperPod 클러스터를 오케스트레이션하기 위한 다음 요구 사항 및 고려 사항을 확인합니다.
중요
AWS Management 콘솔 및 CloudFormation을 사용하여 SageMaker HyperPod 클러스터를 생성하기 위한 리소스 구성을 설정할 수 있습니다. 자세한 내용은 Amazon EKS 오케스트레이션을 사용하여 SageMaker HyperPod 클러스터 생성 및 CloudFormation템플릿을 사용하여 SageMaker HyperPod 클러스터 생성 섹션을 참조하세요.
요구 사항
참고
HyperPod 클러스터를 생성하기 전에 VPC로 구성되고 Helm을 사용하여 설치된 실행 중인 Amazon EKS 클러스터가 필요합니다.
-
SageMaker AI 콘솔을 사용하는 경우 HyperPod 클러스터 콘솔 페이지에서 Amazon EKS 클러스터를 생성할 수 있습니다. 자세한 내용은 Amazon EKS 오케스트레이션을 사용하여 SageMaker HyperPod 클러스터 생성 단원을 참조하십시오.
-
AWSCLI를 사용하는 경우 연결할 HyperPod 클러스터를 생성하기 전에 Amazon EKS 클러스터를 생성해야 합니다. 자세한 내용은 Amazon EKS 사용 설명서의 Amazon EKS 클러스터 생성을 참조하세요.
Amazon EKS 클러스터를 프로비저닝할 때 다음을 고려합니다.
-
Kubernetes 버전 지원
-
SageMaker HyperPod는 Kubernetes 버전 1.28, 1.29, 1.30, 1.31, 1.32 및 1.33을 지원합니다.
-
-
Amazon EKS 클러스터 인증 모드
-
SageMaker HyperPod에서 지원하는 Amazon EKS 클러스터의 인증 모드는
API및API_AND_CONFIG_MAP입니다.
-
-
네트워킹
-
SageMaker HyperPod에는 Amazon VPC 컨테이너 네트워크 인터페이스(CNI) 플러그인 버전 1.18.3 이상이 필요합니다.
참고
AWSKubernetes용 VPC CNI 플러그인
은 SageMaker HyperPod에서 지원하는 유일한 CNI입니다. -
VPC의 서브넷 유형은 HyperPod 클러스터에 대해 프라이빗이어야 합니다.
-
-
IAM 역할
-
HyperPod에 필요한 IAM 역할이 AWS Identity and Access ManagementSageMaker HyperPod용 섹션에 안내된 대로 설정되어 있는지 확인합니다.
-
-
Amazon EKS 클러스터 추가 기능
-
Kube-proxy, CoreDNS, Amazon VPC 컨테이너 네트워크 인터페이스(CNI) 플러그인, Amazon EKS 포드 자격 증명, GuardDuty 에이전트, Amazon FSx 컨테이너 스토리지 인터페이스(CSI) 드라이버, Mountpoint for Amazon S3 CSI 드라이버, Distro for OpenTelemetry, CloudWatch Observability 에이전트 등 Amazon EKS에서 제공하는 다양한 추가 기능을 계속 사용할 수 있습니다.AWS OpenTelemetry CloudWatch
-
Amazon EKS로 SageMaker HyperPod 클러스터를 구성하기 위한 고려 사항
-
노드 유형에 따라 구별되는 IAM 역할을 사용해야 합니다. HyperPod 노드의 경우 SageMaker HyperPod의 IAM 역할를 기반으로 하는 역할을 사용합니다. Amazon EKS 노드의 경우 Amazon EKS node IAM role을 참조하세요.
-
두 가지 접근법을 사용해 SageMaker HyperPod 노드에 추가로 Amazon EBS 볼륨을 프로비저닝하고 탑재할 수 있습니다. 한 가지 접근법은 클러스터 수준 볼륨 프로비저닝(인스턴스 그룹을 생성하거나 업데이트할 때 사용 가능)에 InstanceStorageConfigs를 사용하는 것이고, 또 다른 접근법은 동적 포드 수준 볼륨 관리를 위해 Amazon Elastic Block Store(Amazon EBS) 컨테이너 스토리지 인터페이스(CSI) 드라이버를 사용하는 것입니다. InstanceStorageConfigs를 사용할 경우 볼륨을 Amazon EKS 포드에 올바르게 탑재하려면 로컬 경로
를 /opt/sagemaker로 설정합니다. HyperPod 노드에 Amazon EBS CSI 컨트롤러를 배포하는 방법에 대한 자세한 내용은 SageMaker HyperPod EKS 클러스터에서 Amazon EBS CSI 드라이버 사용 섹션을 참조하세요. -
예약 제약 조건을 정의하기 위해 인스턴스 유형 레이블을 사용하는 경우 접두사가
ml.인 SageMaker AI ML 인스턴스 유형을 사용해야 합니다. 예를 들어 P5 인스턴스의 경우ml.p5.48xlarge대신p5.48xlarge를 사용합니다.
Amazon EKS를 사용하여 SageMaker HyperPod 클러스터용 네트워크를 구성하기 위한 고려 사항
-
각 HyperPod 클러스터 인스턴스는 하나의 Elastic Network Interface(ENI)를 지원합니다. 인스턴스 유형당 최대 포드 수는 다음 표를 참조하세요.
인스턴스 유형 최대 포드 수 ml.p4d.24xlarge 49 ml.p4de.24xlarge 49 ml.p5.48xlarge 49 ml.trn1.32xlarge 49 ml.trn1n.32xlarge 49 ml.g5.xlarge 14 ml.g5.2xlarge 14 ml.g5.4xlarge 29 ml.g5.8xlarge 29 ml.g5.12xlarge 49 ml.g5.16xlarge 29 ml.g5.24xlarge 49 ml.g5.48xlarge 49 ml.c5.large 9 ml.c5.xlarge 14 ml.c5.2xlarge 14 ml.c5.4xlarge 29 ml.c5.9xlarge 29 ml.c5.12xlarge 29 ml.c5.18xlarge 49 ml.c5.24xlarge 49 ml.c5n.large 9 ml.c5n.2xlarge 14 ml.c5n.4xlarge 29 ml.c5n.9xlarge 29 ml.c5n.18xlarge 49 ml.m5.large 9 ml.m5.xlarge 14 ml.m5.2xlarge 14 ml.m5.4xlarge 29 ml.m5.8xlarge 29 ml.m5.12xlarge 29 ml.m5.16xlarge 49 ml.m5.24xlarge 49 ml.t3.medium 5 ml.t3.large 11 ml.t3.xlarge 14 ml.t3.2xlarge 14 ml.g6.xlarge 14 ml.g6.2xlarge 14 ml.g6.4xlarge 29 ml.g6.8xlarge 29 ml.g6.12xlarge 29 ml.g6.16xlarge 49 ml.g6.24xlarge 49 ml.g6.48xlarge 49 ml.gr6.4xlarge 29 ml.gr6.8xlarge 29 ml.g6e.xlarge 14 ml.g6e.2xlarge 14 ml.g6e.4xlarge 29 ml.g6e.8xlarge 29 ml.g6e.12xlarge 29 ml.g6e.16xlarge 49 ml.g6e.24xlarge 49 ml.g6e.48xlarge 49 ml.p5e.48xlarge 49 -
hostNetwork = true가 있는 포드만 기본적으로 Amazon EC2 인스턴스 메타데이터 서비스(IMDS)에 액세스할 수 있습니다. Amazon EKS Pod Identity 또는 서비스 계정의 IAM 역할(IRSA)을 사용하여 포드의 AWS자격 증명에 대한 액세스를 관리합니다. -
EKS에 의해 오케스트레이션된 HyperPod 클러스터는 듀얼 IP 주소 지정 모드를 지원하므로 IPv6 지원 VPC 및 서브넷 환경에서 IPv6 Amazon EKS 클러스터에 대해 IPv4 또는 IPv6로 구성할 수 있습니다. 자세한 내용은 사용자 지정 Amazon VPC를 사용하여 SageMaker HyperPod 설정 단원을 참조하십시오.
HyperPod 클러스터 복원력 기능 사용에 대한 고려 사항
-
노드 자동 교체는 CPU 인스턴스에서 지원되지 않습니다.
-
노드 자동 복구가 작동하려면 HyperPod 상태 모니터링 에이전트를 설치해야 합니다. 에이전트는 Helm을 사용하여 설치할 수 있습니다. 자세한 내용은 헬름을 사용하여 Amazon EKS 클러스터에 패키지 설치 섹션을 참조하세요.
-
HyperPod 심층 상태 확인 및 상태 모니터링 에이전트는 GPU 및 Trn 인스턴스를 지원합니다.
-
SageMaker AI는 노드가 심층 상태 확인을 거치는 경우 노드에 다음 테인트를 적용합니다.
effect: NoSchedule key: sagemaker.amazonaws.com/node-health-status value: Unschedulable참고
DeepHealthChecks가 켜져 있는 인스턴스 그룹의 노드에는 사용자 지정 테인트를 추가할 수 없습니다.
Amazon EKS 클러스터가 실행되면 HyperPod 클러스터를 생성하기 전에 헬름을 사용하여 Amazon EKS 클러스터에 패키지 설치의 지침에 따라 Helm 패키지 관리자를 사용하여 클러스터를 구성합니다.