SageMaker HyperPod EKS에서 오토 스케일링

Amazon SageMaker HyperPod는 EKS 오케스트레이션으로 생성된 클러스터에 대해 관리형 Karpenter 기반 노드 오토 스케일링 솔루션을 제공합니다. Karpenter는 클러스터 규모 조정 및 비용 효율성을 최적화 AWS 하는에서 구축한 오픈 소스 Kubernetes 노드 수명 주기 관리자입니다. 자체 관리형 Karpenter 배포와 달리 SageMaker HyperPod의 관리형 구현은 Karpenter 컨트롤러를 설치, 구성 및 유지 관리하는 데 드는 운영 오버헤드를 없애는 동시에 통합 복원력과 내결함성을 제공합니다. 이 관리형 오토 스케일링 솔루션은 HyperPod의 지속적 프로비저닝 기능을 기반으로 하며 자동 장애 처리 및 복구를 통해 훈련 및 추론 워크로드를 위한 컴퓨팅 리소스를 효율적으로 규모 조정할 수 있도록 합니다.

사용한 만큼만 지불합니다. 오토 스케일링을 통해 자동으로 프로비저닝되는 모든 컴퓨팅 인스턴스에 대해 표준 SageMaker HyperPod 요금에 따라 비용을 지불해야 합니다. 요금에 대한 자세한 내용은 Amazon SageMaker AI를 참조하세요.

HyperPod를 사용하여 Karpenter 기반 오토 스케일링을 활성화하면 다음에 액세스할 수 있습니다.

서비스 관리형 수명 주기 - HyperPod는 Karpenter 설치, 업데이트 및 유지 관리를 처리하여 운영 오버헤드를 제거합니다.
적시 프로비저닝 - Karpenter는 보류 중인 포드를 관찰하고 온디맨드 풀에서 워크로드에 필요한 컴퓨팅을 프로비저닝합니다.
0으로 규모 조정 - 전용 컨트롤러 인프라를 유지 관리하지 않고 노드를 0개로 스케일 다운합니다.
워크로드 인식 노드 선택 - Karpenter는 포드 요구 사항, 가용 영역 및 요금을 기반으로 최적의 인스턴스 유형을 선택하여 비용을 최소화합니다.
자동 노드 통합 - Karpenter는 정기적으로 클러스터의 최적화 기회를 평가하여 사용률이 낮은 노드를 제거하기 위해 워크로드를 이동합니다.
통합 복원력 - HyperPod의 내장 내결함성 및 노드 복구 메커니즘을 활용합니다.

다음 주제에서는 Karpenter를 사용하여 HyperPod 오토 스케일링을 활성화하는 방법을 설명합니다.

주제

사전 조건

HyperPod 클러스터에서 지속적인 프로비저닝이 활성화되어 있어야 합니다. SageMaker HyperPod 클러스터를 생성할 때 --node-provisioning-mode를 Continuous로 설정하여 지속적 프로비저닝을 활성화합니다. 자세한 내용은 Amazon EKS에서 향상된 클러스터 작업을 위한 지속적 프로비저닝 단원을 참조하십시오.
상태 모니터링 에이전트 버전 1.0.742.0_1.0.241.0 이상이 설치되어 있어야 합니다. HyperPod 클러스터 작업 및 모니터링에 필요합니다. 적절한 클러스터 상태 보고 및 노드 수명 주기 관리를 보장하려면 Karpenter 오토 스케일링을 활성화하기 전에 에이전트를 구성해야 합니다. 자세한 내용은 상태 모니터링 시스템 단원을 참조하십시오.
Amazon EKS 클러스터에 Karpenter가 실행 중인 경우에만 Karpenter NodePool 및 NodeClaim 버전이 v1이어야 합니다.
NodeRecovery를 자동으로 설정해야 합니다. 자세한 내용은 자동 노드 복구 단원을 참조하십시오.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

지속적 프로비저닝

IAM 역할 생성