작동 방식 사용량 측정 지속적 프로비저닝이 활성화된 클러스터 생성 최소 용량 요구 사항(MinCount)유연한 인스턴스 그룹

Amazon EKS에서 향상된 클러스터 작업을 위한 지속적 프로비저닝

Amazon EKS 오케스트레이션으로 생성된 Amazon SageMaker HyperPod 클러스터는 이제 대규모 AI/ML 워크로드를 실행할 때 유연성과 효율성을 높일 수 있는 새로운 기능인 지속적 프로비저닝을 지원합니다. 지속적 프로비저닝을 사용하면 훈련을 빠르게 시작하고, 원활하게 규모를 조정하고, 작업을 중단하지 않고 유지 관리를 수행하고, 클러스터 작업을 세부적으로 파악할 수 있습니다.

참고

지속적 프로비저닝은 EKS 오케스트레이션으로 생성된 HyperPod 클러스터에서 선택적 구성으로 사용할 수 있습니다. Slurm 오케스트레이션으로 생성된 HyperPod 클러스터는 지속적인 프로비저닝도 지원합니다. 자세한 내용은 Slurm을 사용하여 향상된 클러스터 작업을 위한 지속적 프로비저닝을 참조하세요.

작동 방식

지속적 프로비저닝 시스템은 기존의 요청 기반 모델을 대체하는 원하는 상태 아키텍처를 도입합니다. 이 새로운 아키텍처를 사용하면 시스템 안정성과 성능을 유지하면서 다양한 리소스 수준에서 병렬 비차단 작업을 수행할 수 있습니다. 지속적 프로비저닝 시스템:

요청 수락: 각 인스턴스 그룹의 목표 인스턴스 수를 기록합니다.
프로비저닝 시작: 목표한 개수를 충족하기 위해 인스턴스 가동을 시작합니다.

진행 상황 추적: 각 인스턴스 가동 시도를 모니터링하고 상태를 기록합니다.
실패 처리: 실패한 가동을 자동으로 재시도합니다.

연속 프로비저닝은 기본적으로 비활성화되어 있습니다. 이 기능을 사용하려면 --node-provisioning-mode를 Continuous로 설정하세요.

지속적 프로비저닝을 활성화하면 이전 작업이 완료될 때까지 기다리지 않고 여러 규모 조정 작업을 동시에 시작할 수 있습니다. 이렇게 하면 동일한 클러스터에서 서로 다른 인스턴스 그룹을 동시에 규모 조정하고 여러 규모 조정 요청을 동일한 인스턴스 그룹에 제출할 수 있습니다.

또한 지속적인 프로비저닝을 통해 DescribeClusterEvent 및 ListClusterEvent에 액세스하여 자세한 이벤트 모니터링 및 운영 가시성을 확보할 수 있습니다.

사용량 측정

지속적 프로비저닝이 사용되는 HyperPod 클러스터는 인스턴스 수준 측정 기능을 사용하여 실제 리소스 사용량을 반영하는 정확한 청구서를 제공합니다. 이 측정 접근 방식은 각 인스턴스를 독립적으로 추적하므로 기존의 클러스터 수준 청구와 다릅니다.

인스턴스 수준 청구

지속적 프로비저닝을 사용하면 클러스터 수준 상태 변경을 기다리지 않고 개별 인스턴스 수준에서 청구가 시작되고 중지됩니다. 이러한 접근 방식에는 다음과 같은 이점이 있습니다.

정확한 청구: 수명 주기 스크립트 실행이 시작되면 청구가 시작됩니다. 수명 주기 스크립트가 실패하면 인스턴스 프로비저닝이 재시도되고 수명 주기 스크립트 런타임 기간에 대한 요금이 부과됩니다.
독립적인 측정: 각 인스턴스의 청구 수명 주기가 개별적으로 관리되므로 연속적인 청구 오류를 방지할 수 있습니다.
실시간 청구 업데이트: 인스턴스가 수명 주기 스크립트를 실행하기 시작하면 청구가 시작되고 인스턴스가 종료 중 상태가 되면 중지됩니다.

청구 수명 주기

HyperPod 클러스터의 각 인스턴스는 다음 청구 수명 주기를 따릅니다.

청구 시작: 인스턴스가 성공적으로 시작되고 수명 주기 구성 스크립트 실행을 시작할 때
청구 계속: 인스턴스의 운영 수명 주기 동안
청구 중지: 종료 이유와 관계없이 인스턴스가 종료 중 상태가 될 때

참고

가동에 실패한 인스턴스에 대해서는 청구가 시작되지 않습니다. 용량 부족 또는 기타 문제로 인해 인스턴스 청구가 실패하는 경우 실패한 시도에 대해서는 요금이 부과되지 않습니다. 청구서는 인스턴스 수준에서 계산되며 비용은 클러스터의 Amazon 리소스 이름(ARN)으로 집계 및 보고됩니다.

지속적 프로비저닝이 활성화된 클러스터 생성

참고

VPC 네트워킹으로 구성된 기존 Amazon EKS 클러스터와 필요한 헬름 차트가 설치되어 있어야 합니다. 또한 수명 주기 구성 스크립트를 준비하여 실행 역할이 액세스할 수 있는 Amazon S3 버킷에 업로드합니다. 자세한 내용은 Amazon EKS에서 오케스트레이션한 SageMaker HyperPod 클러스터 관리 단원을 참조하십시오.

다음 AWS CLI 작업은 하나의 인스턴스 그룹과 지속적 프로비저닝이 활성화된 HyperPod 클러스터를 생성합니다.


aws sagemaker create-cluster \ 
--cluster-name $HP_CLUSTER_NAME \
--orchestrator 'Eks={ClusterArn='$EKS_CLUSTER_ARN'}' \
--vpc-config '{
   "SecurityGroupIds": ["'$SECURITY_GROUP'"],
   "Subnets": ["'$SUBNET'"]
}' \
--instance-groups '{
   "InstanceGroupName": "ig-1",
   "InstanceType": "ml.c5.2xlarge",
   "InstanceCount": 2,
   "LifeCycleConfig": {
      "SourceS3Uri": "s3://'$BUCKET_NAME'",
      "OnCreate": "on_create_noop.sh"
   },
   "ExecutionRole": "'$EXECUTION_ROLE'",
   "ThreadsPerCore": 1,
   "TrainingPlanArn": ""
}' \
--node-provisioning-mode Continuous


// Expected Output:
{
    "ClusterArn": "arn:aws:sagemaker:us-west-2:<account-id>:cluster/<cluster-id>"
}

클러스터를 생성한 후 ListClusterNodes 또는 DescribeClusterNode를 사용하여 클러스터의 노드에 대한 자세한 정보를 확인할 수 있습니다.

이러한 작업을 직접적으로 호출하면 다음 값 중 하나가 포함된 ClusterInstanceStatusDetails 객체가 반환됩니다.

Running: 노드가 정상이고 클러스터 오케스트레이터(EKS)로 등록되어 있습니다.
Failure: 노드 프로비저닝에 실패했지만 시스템이 새 EC2 인스턴스로 프로비저닝을 자동으로 재시도합니다.
Pending: 노드가 프로비저닝되거나 재부팅되고 있습니다.
ShuttingDown: 노드 종료가 진행 중입니다. 종료에 문제가 발생하면 노드가 실패 상태로 전환되고, 아니면 클러스터에서 성공적으로 제거됩니다.
SystemUpdating: 노드에 수동으로 또는 cronjobs 패치 적용의 일부로 트리거되는 AMI 패치 적용이 진행 중입니다.
DeepHealthCheckInProgress: 심층 상태 확인(DHC)이 수행되고 있습니다. 테스트의 특성에 따라 몇 분에서 몇 시간이 걸릴 수 있습니다. 잘못된 노드가 교체되고 정상 노드가 Running으로 전환됩니다.
NotFound: BatchAddClusterNodes 응답에서 멱등성 재생 중에 노드가 삭제되었음을 나타내는 데 사용됩니다.

최소 용량 요구 사항(MinCount)

MinCount 기능을 사용하면 인스턴스 그룹이 InService 상태로 전환되기 전에 성공적으로 프로비저닝해야 하는 최소 인스턴스 수를 지정할 수 있습니다. 이 기능은 조정 작업을 더 잘 제어하고 부분적으로 프로비저닝된 인스턴스 그룹을 워크로드 훈련에 효과적으로 사용할 수 없는 시나리오를 방지하는 데 도움이 됩니다.

중요

MinCount는 최소 용량을 영구적으로 보장하지 않습니다. 인스턴스 그룹이 처음가 될 때만 지정된 최소 인스턴스 수를 사용할 수 있도록 합니다InService. 비정상 인스턴스 교체 또는 유지 관리 활동과 같은 정상 작동 중에 MinCount 미만으로 잠시 감소할 수 있습니다.

MinCount 작동 방식

MinCount가 활성화된 인스턴스 그룹을 생성하거나 업데이트하면 다음 동작이 발생합니다.

새 인스턴스 그룹: 최소 MinCount 인스턴스가 성공적으로 프로비저닝되고 준비될 때까지 인스턴스 그룹은 Creating 상태를 유지합니다. 이 임계값이 충족되면 인스턴스 그룹이 로 전환됩니다InService.
기존 인스턴스 그룹: 기존 인스턴스 그룹에서 MinCount를 업데이트할 때 새 MinCount 요구 사항이 충족될 Updating 때까지 상태가 로 변경됩니다.
연속 조정: TargetCount가 MinCount보다 크면 연속 조정 시스템은 TargetCount에 도달할 때까지 추가 인스턴스를 계속 시작하려고 시도합니다.
제한 시간 및 롤백: 3시간 이내에 MinCount를 충족할 수 없는 경우 시스템은 인스턴스 그룹을 마지막으로 알려진 정상 상태로 자동 롤백합니다. 롤백 동작에 대한 자세한 내용은 자동 롤백 동작을 참조하세요.

MinCount 작업 중 인스턴스 그룹 상태

MinCount가 구성된 인스턴스 그룹은 다음과 같은 상태 동작을 나타냅니다.

생성 중: CurrentCount < MinCount일 때 새 인스턴스 그룹의 경우. 인스턴스 그룹은 최소 용량 요구 사항이 충족될 때까지이 상태를 유지합니다.
업데이트 중: MinCount가 수정되고 CurrentCount < MinCount인 기존 인스턴스 그룹의 경우. 인스턴스 그룹은 새로운 최소 용량 요구 사항이 충족될 때까지이 상태를 유지합니다.
서비스 중: MinCount ≤ CurrentCount ≤ TargetCount인 경우. 인스턴스 그룹을 사용할 준비가 되었으며 모든 변경 작업이 차단 해제됩니다.

Creating 또는 Updating 상태 중에는 다음과 같은 제한이 적용됩니다.

BatchAddClusterNodes, BatchDeleteClusterNodes또는와 같은 변형 작업이 차단UpdateClusterSoftware됨
MinCount 및 TargetCount 값을 수정하여 구성 오류를 수정할 수 있습니다.
클러스터 및 인스턴스 그룹 삭제는 항상 허용됩니다.

자동 롤백 동작

인스턴스 그룹이 3시간 이내에 MinCount에 도달할 수 없는 경우 시스템은 무한 대기를 방지하기 위해 롤백을 자동으로 시작합니다.

새 인스턴스 그룹: MinCount 및 TargetCount가 (0, 0)으로 재설정됩니다.
기존 인스턴스 그룹: MinCount 및 TargetCount가 마지막 InService 상태에서 해당 값으로 복원됩니다.
종료할 인스턴스 선택: 롤백 중에 인스턴스를 종료해야 하는 경우 시스템은 비정상 인스턴스를 먼저 선택한 다음 가장 최근에 프로비저닝된 인스턴스를 선택합니다.
상태 전환: 인스턴스 그룹은 롤백 시작 후 즉시 InService 상태로 전환되므로 연속 조정 시스템이 롤백 설정에 따라 용량을 관리할 수 있습니다.

MinCount가 업데이트될 때마다 3시간 제한 시간이 재설정됩니다. 예를 들어 MinCount를 여러 번 업데이트하면 가장 최근 업데이트부터 제한 시간이 새로 시작됩니다.

MinCount 이벤트

시스템은 MinCount 작업을 추적하는 데 도움이 되는 특정 이벤트를 내보냅니다.

최소 용량 도달: 인스턴스 그룹이 MinCount에 성공적으로 도달하고 로 전환되면 내보내집니다. InService
롤백 시작됨: 3시간 제한 시간이 만료되고 자동 롤백이 시작될 때 내보내짐

ListClusterEvents를 사용하여 이러한 이벤트를 모니터링하여 MinCount 작업의 진행 상황을 추적할 수 있습니다.

API 사용

MinCount는 인스턴스 그룹 구성에서 MinInstanceCount 파라미터를 사용하여 지정됩니다.


aws sagemaker create-cluster \
--cluster-name $HP_CLUSTER_NAME \
--orchestrator 'Eks={ClusterArn='$EKS_CLUSTER_ARN'}' \
--vpc-config '{
   "SecurityGroupIds": ["'$SECURITY_GROUP'"],
   "Subnets": ["'$SUBNET'"]
}' \
--instance-groups '{
   "InstanceGroupName": "worker-group",
   "InstanceType": "ml.p4d.24xlarge",
   "InstanceCount": 64,
   "MinInstanceCount": 50,
   "LifeCycleConfig": {
      "SourceS3Uri": "s3://'$BUCKET_NAME'",
      "OnCreate": "on_create.sh"
   },
   "ExecutionRole": "'$EXECUTION_ROLE'"
}' \
--node-provisioning-mode Continuous

MinCount 사용에 대한 주요 고려 사항:

MinInstanceCount CreateCluster 또는 UpdateCluster 요청에 지정된 인스턴스 그룹의 값이 0과 InstanceCount (포함) 사이여야 합니다.
를 0(기본값)MinInstanceCount으로 설정하면 표준 연속 조정 동작이 유지됩니다.
를 MinInstanceCount로 설정하면 InstanceCount all-or-nothing 조정하지 않습니다.
MinCount는가 로 NodeProvisioningMode 설정된 클러스터에만 사용할 수 있습니다. Continuous

유연한 인스턴스 그룹

유연한 인스턴스 그룹을 사용하면 단일 인스턴스 그룹 내에서 여러 인스턴스 유형을 지정할 수 있습니다. 이렇게 하면 생성 및 관리해야 하는 인스턴스 그룹 수를 줄여 클러스터 관리가 간소화됩니다. 특히 Auto Scaling을 사용하는 추론 워크로드의 경우 더욱 그렇습니다.

유연한 인스턴스 그룹을 사용하는 HyperPod는 다음과 같습니다.

목록의 첫 번째 인스턴스 유형을 사용하여 인스턴스 프로비저닝 시도
용량을 사용할 수 없는 경우 후속 인스턴스 유형으로 돌아갑니다.
축소 중에 우선 순위가 가장 낮은 인스턴스 유형의 인스턴스를 먼저 종료합니다.

참고

유연한 인스턴스 그룹은가 로 NodeProvisioningMode 설정된 클러스터에서만 사용할 수 있습니다Continuous. InstanceType 및 InstanceRequirements 속성은 상호 배타적입니다. 둘 중 하나를 지정할 수 있지만 둘 다 지정할 수는 없습니다.

유연한 인스턴스 그룹을 사용하여 클러스터 생성

InstanceRequirements 대신 InstanceType를 사용하여 유연한 인스턴스 그룹을 생성합니다. 목록의 인스턴스 유형 순서에 따라 프로비저닝 우선 순위가 결정됩니다.


aws sagemaker create-cluster \
--cluster-name $HP_CLUSTER_NAME \
--orchestrator 'Eks={ClusterArn='$EKS_CLUSTER_ARN'}' \
--vpc-config '{
   "SecurityGroupIds": ["'$SECURITY_GROUP'"],
   "Subnets": ["'$SUBNET_AZ1'", "'$SUBNET_AZ2'"]
}' \
--instance-groups '[{
   "InstanceGroupName": "flexible-ig",
   "InstanceRequirements": {
      "InstanceTypes": ["ml.p5.48xlarge", "ml.p4d.24xlarge", "ml.g6.48xlarge"]
   },
   "InstanceCount": 10,
   "LifeCycleConfig": {
      "SourceS3Uri": "s3://'$BUCKET_NAME'",
      "OnCreate": "on_create.sh"
   },
   "ExecutionRole": "'$EXECUTION_ROLE'"
}]' \
--node-provisioning-mode Continuous

BatchAddClusterNodes를 사용한 대상 조정

유연한 인스턴스 그룹을 사용하는 경우 BatchAddClusterNodes를 사용하여 특정 인스턴스 유형 및 가용 영역이 있는 노드를 추가할 수 있습니다. 이는 Karpenter Auto Scaling이 워크로드에 대한 최적의 인스턴스 유형과 가용 영역을 결정할 때 특히 유용합니다.


aws sagemaker batch-add-cluster-nodes \
--cluster-name $HP_CLUSTER_NAME \
--nodes-to-add '[
   {
      "InstanceGroupName": "flexible-ig",
      "IncrementTargetCountBy": 1,
      "InstanceTypes": ["ml.p5.48xlarge"],
      "AvailabilityZones": ["us-west-2a"]
   }
]'

유연한 인스턴스 그룹 세부 정보 보기

DescribeCluster를 사용하여 유연한 인스턴스 그룹의 인스턴스 유형 및 유형별 분석을 볼 수 있습니다. 응답에는 다음이 포함됩니다.

InstanceRequirements - 인스턴스 그룹의 현재 및 원하는 인스턴스 유형
InstanceTypeDetails - 그룹에 있는 각 per-instance-type 분석

Karpenter Auto Scaling과 함께 유연한 인스턴스 그룹 사용

유연한 인스턴스 그룹은 HyperPod의 관리형 Karpenter Autoscaling과 통합됩니다. Karpenter 설정에 대한 자세한 내용은 섹션을 참조하세요SageMaker HyperPod EKS에서 오토 스케일링. HyperPodNodeClass 구성에서 유연한 인스턴스 그룹을 참조하면 Karpenter가 자동으로 다음을 수행합니다.

유연한 인스턴스 그룹에서 지원되는 인스턴스 유형을 감지합니다.
포드 요구 사항 및 요금에 따라 최적의 인스턴스 유형 및 가용 영역을 선택합니다.
선택한 인스턴스 유형 및 가용 영역에서 대상 BatchAddClusterNodes 호출을 사용하여 유연한 인스턴스 그룹을 확장합니다.

참고

Karpenter는 조정을 관리할 때 포드 요구 사항 및 요금을 기반으로 자체 선택 로직을 사용하여 프로비저닝할 인스턴스 유형을 결정합니다. 이는 목록의 첫 번째 인스턴스 유형이 항상 먼저 시도되는 HyperPod의 기본 프로비저닝(예: CreateCluster 및 UpdateCluster)에서 사용하는 목록 순서 우선 순위와 다릅니다.

따라서 각 인스턴스 유형에 대해 별도의 인스턴스 그룹을 생성하고 여러 그룹을 참조하도록 Karpenter를 수동으로 구성할 필요가 없습니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

EKS 클러스터 이벤트

HyperPod EKS에서 오토 스케일링