SageMaker HyperPod의 복원력 관련 Kubernetes 레이블 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

SageMaker HyperPod의 복원력 관련 Kubernetes 레이블

레이블Kubernetes 객체에 연결된 키-값 페어입니다. SageMaker HyperPod는 제공하는 상태 확인을 위해 다음 레이블을 도입합니다.

노드 상태 레이블

node-health-status 레이블은 노드의 상태를 나타내며 정상 노드에서 노드 선택기 필터의 일부로 사용됩니다.

레이블 설명
sagemaker.amazonaws.com/node-health-status: Schedulable 노드가 기본 상태 확인을 통과했으며 워크로드 실행에 사용할 수 있습니다. 이 상태 확인은 Slurm 클러스터에 대해 현재 사용 가능한 SageMaker HyperPod 복원력 기능과 동일합니다.
sagemaker.amazonaws.com/node-health-status: Unschedulable 노드가 심층 상태 확인을 실행 중이며 워크로드 실행에 사용할 수 없습니다.
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement 노드가 심층 상태 확인 또는 상태 모니터링 에이전트 확인에 실패했으며 교체가 필요합니다. 자동 노드 복구가 활성화된 경우 SageMaker HyperPod에 의해 노드가 자동으로 교체됩니다.
sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot 노드가 심층 상태 확인 또는 상태 모니터링 에이전트 확인에 실패했으며 재부팅이 필요합니다. 자동 노드 복구가 활성화된 경우 SageMaker HyperPod에 의해 노드가 자동으로 재부팅됩니다.

심층 상태 확인 레이블

deep-health-check-status 레이블은 특정 노드에 대한 심층 상태 확인의 진행 상황을 나타냅니다. Kubernetes 사용자가 전반적인 심층 상태 확인의 진행 상황을 빠르게 필터링하는 데 유용합니다.

레이블 설명
sagemaker.amazonaws.com/deep-health-check-status: InProgress 노드가 심층 상태 확인을 실행 중이며 워크로드 실행에 사용할 수 없습니다.
sagemaker.amazonaws.com/deep-health-check-status: Passed 노드는 심층 상태 확인 및 상태 모니터링 에이전트 확인을 성공적으로 완료했으며 워크로드를 실행하는 데 사용할 수 있습니다.
sagemaker.amazonaws.com/deep-health-check-status: Failed 노드가 심층 상태 확인 또는 상태 모니터링 에이전트 확인에 실패했으며 교체가 필요합니다. 자동 노드 복구가 활성화된 경우 노드가 자동으로 재부팅되거나 SageMaker HyperPod로 대체됩니다.

결함 유형 및 이유 레이블

폴링은 fault-typefault-reason 레이블을 설명합니다.

  • fault-type 레이블은 상태 확인에 실패할 때 상위 수준 장애 범주를 나타냅니다. 이는 심층 상태 및 상태 모니터링 에이전트 확인 중에 식별된 장애에 대해 채워집니다.

  • fault-reason 레이블은 fault-type과 관련된 자세한 오류 이유를 나타냅니다.

SageMaker HyperPod 레이블 지정 방법

다음 주제에서는 다양한 사례에 따라 레이블 지정을 수행하는 방법을 다룹니다.

심층 상태 확인 구성이 비활성화된 SageMaker HyperPod 클러스터에 노드가 추가되는 경우

클러스터에 새 노드가 추가되고 인스턴스 그룹에 대해 심층 상태 확인이 활성화되지 않은 경우 SageMaker HyperPod는 Slurm 클러스터에 대해 현재 사용 가능한 SageMaker HyperPod 상태 확인과 동일한 상태 확인을 실행합니다.

상태 확인이 통과하면 노드에 다음 레이블이 표시됩니다.

sagemaker.amazonaws.com/node-health-status: Schedulable

상태 확인이 통과되지 않으면 노드가 종료되고 교체됩니다. 이 동작은 SageMaker HyperPod 상태 확인이 Slurm 클러스터에서 작동하는 방식과 동일합니다.

심층 상태 확인 구성이 활성화된 SageMaker HyperPod 클러스터에 노드가 추가되는 경우

새 노드가 SageMaker HyperPod 클러스터에 추가되고 인스턴스 그룹에 대해 심층 상태 확인 테스트가 활성화된 경우 HyperPod는 먼저 노드를 테인팅하고 노드에서 ~2시간 심층 상태 확인/스트레스 테스트를 시작합니다. 심층 상태 확인 후 노드 레이블의 출력은 3개일 수 있습니다.

  1. 심층 상태 확인 테스트가 통과한 경우

    sagemaker.amazonaws.com/node-health-status: Schedulable
  2. 심층 상태 확인 테스트가 실패하고 인스턴스를 교체해야 하는 경우

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
  3. 심층 상태 확인 테스트가 실패하고 심층 상태 확인을 다시 실행하려면 인스턴스를 재부팅해야 하는 경우

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

인스턴스가 심층 상태 확인 테스트에 실패하면 인스턴스는 항상 교체됩니다. 심층 상태 확인 테스트에 성공하면 노드의 taint이 제거됩니다.

노드에 컴퓨팅 장애가 있는 경우

SageMaker HyperPod 상태 모니터링 에이전트는 각 노드의 상태도 지속적으로 모니터링합니다. 장애가 감지되면(예: GPU 장애 및 드라이버 충돌) 에이전트는 노드에 다음 레이블 중 하나를 표시합니다.

  1. 노드가 비정상이고 교체해야 하는 경우

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReplacement
  2. 노드가 비정상이고 재부팅해야 하는 경우

    sagemaker.amazonaws.com/node-health-status: UnschedulablePendingReboot

상태 모니터링 에이전트는 노드 상태 문제를 감지할 때도 노드를 테인팅합니다.