기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
문제 해결
다음 페이지에는 HyperPod EKS 클러스터 문제 해결을 위한 알려진 솔루션이 포함되어 있습니다.
대시보드 탭
EKS 추가 기능 설치 실패
EKS 추가 기능 설치가 성공하려면 Kubernets 버전이 1.30 이상이어야 합니다. 업데이트하려면 Update Kubernetes version을 참조하세요.
EKS 추가 기능 설치가 성공하려면 모든 노드가 준비 완료 상태이고 모든 포드가 실행 중 상태여야 합니다.
노드 상태를 확인하려면 list-cluster-nodesAWS CLI명령을 사용하거나 EKS 콘솔에서 EKS
포드의 상태를 확인하려면 Kubernetes CLIkubectl get pods -n cloudwatch-agent를 사용하거나 EKS 콘솔cloudwatch-agent를 사용하여 포드의 상태를 확인합니다. 포드의 문제를 해결하거나 관리자에게 문의하여 문제를 해결합니다. 모든 포드 상태가 실행 중이면 Amazon SageMaker AI 콘솔
더 많은 문제 해결 방법은 Amazon CloudWatch Observability EKS 추가 기능 문제 해결을 참조하세요.
작업 탭
클러스터에서 사용자 지정 리소스 정의(CRD)가 구성되지 않았다는 오류 메시지가 표시되면 도메인 실행 역할에 EKSAdminViewPolicy 및 ClusterAccessRole 정책을 부여합니다.
-
실행 역할을 가져오는 방법에 대한 자세한 내용은 실행 역할을 가져옵니다.섹션을 참조하세요.
-
IAM 사용자 또는 그룹에 정책을 연결하는 방법을 알아보려면 IAM 자격 증명 권한 추가 및 제거를 참조하세요.
정책
다음은 HyperPod API 또는 콘솔을 사용하는 정책과 관련된 오류에 대한 해결 방법입니다.
-
정책이
CreateFailed또는CreateRollbackFailed상태인 경우 실패한 정책을 삭제하고 새 정책을 생성해야 합니다. -
정책이
UpdateFailed상태인 경우 동일한 정책 ARN으로 업데이트를 다시 시도합니다. -
정책이
UpdateRollbackFailed상태인 경우 실패한 정책을 삭제한 다음 새 정책을 생성해야 합니다. -
정책이
DeleteFailed또는DeleteRollbackFailed상태인 경우 동일한 정책 ARN으로 삭제를 다시 시도합니다.-
HyperPod 콘솔을 사용하여 컴퓨팅 우선순위 또는 클러스터 정책을 삭제하는 동안 오류가 발생한 경우 API를 사용하여
cluster-scheduler-config를 삭제해 보세요. 리소스의 상태를 확인하려면 컴퓨팅 할당의 세부 정보 페이지로 이동합니다.
-
실패에 대한 자세한 내용을 보려면 설명 API를 사용합니다.
클러스터 삭제
다음은 클러스터 삭제와 관련된 오류에 대해 알려진 해결 방법입니다.
-
연결된 SageMaker HyperPod 태스크 거버넌스 정책으로 인해 클러스터 삭제가 실패하면 정책 삭제 작업을 수행해야 합니다.
-
다음 권한이 누락되어 클러스터 삭제에 실패하면 클러스터 관리자 최소 권한 세트를 업데이트해야 합니다. 클러스터 관리자의 IAM 사용자 섹션의 Amazon EKS 탭을 참조하세요.
-
sagemaker:ListComputeQuotas -
sagemaker:ListClusterSchedulerConfig -
sagemaker:DeleteComputeQuota -
sagemaker:DeleteClusterSchedulerConfig
-