노드 수명 주기 및 레이블 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

노드 수명 주기 및 레이블

Amazon SageMaker HyperPod는 GPU 파티셔닝이 시작되기 전에 HyperPod 클러스터를 생성하고 업데이트하는 동안 클러스터 인스턴스에 대한 심층 상태 확인을 수행합니다. HyperPod 상태 모니터링 에이전트는 GPU 분할 인스턴스의 상태를 지속적으로 모니터링합니다.

MIG 구성 상태

GPU 파티션 구성이 있는 노드는 여러 상태를 거칩니다.

  • 보류 중 - 노드가 MIG 프로파일로 구성되고 있습니다.

  • 구성 - GPU 운영자가 MIG 파티셔닝 적용 중

  • 성공 - GPU 파티셔닝이 성공적으로 완료되었습니다.

  • 실패 - GPU 파티셔닝에 오류가 발생했습니다.

노드 상태 모니터링

# Check node health status kubectl get nodes -l sagemaker.amazonaws.com/node-health-status=Schedulable # Monitor MIG configuration progress kubectl get node NODE_NAME -o jsonpath='{.metadata.labels.nvidia\.com/mig\.config\.state}' # Check for configuration errors kubectl describe node NODE_NAME | grep -A 5 "Conditions:"

사용자 지정 레이블 및 테인트

사용자 지정 레이블과 테인트로 MIG 구성을 관리하여 GPU 파티션에 레이블을 지정하고 인스턴스에 적용할 수 있습니다.

{ "KubernetesConfig": { "Labels": { "nvidia.com/mig.config": "all-2g.10gb", "task-type": "inference", "environment": "production" }, "Taints": [ { "Key": "gpu-task", "Value": "mig-enabled", "Effect": "NoSchedule" } ] } }