관찰성 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

관찰성

표준 Kubernetes 모니터링

kubectl 설명 및 kubectl 로그와 같은 표준 Kubernetes 도구를 사용하여 스페이스를 모니터링할 수 있습니다.

스페이스 상태 모니터링

# List all Spaces with status kubectl get workspace -A # Get detailed information about a specific Space kubectl describe workspace <workspace-name>

스페이스 로그 보기

# View workspace container logs kubectl logs -l workspace.jupyter.org/workspace-name=<workspace-name> -c workspace # View SSM agent sidecar logs (for remote IDE connectivity) kubectl logs -l workspace.jupyter.org/workspace-name=<workspace-name> -c ssm-agent-sidecar # Follow logs in real-time kubectl logs -l workspace.jupyter.org/workspace-name=<workspace-name> -c workspace -f

공간 조건 이해

스페이스는 상태의 네 가지 조건 유형을 보고합니다.

  • 사용 가능: 스페이스를 사용할 준비가 된 True 경우. 필요한 모든 리소스(포드, 서비스, 스토리지)가 실행 중이고 정상입니다.

  • 진행 중: 스페이스가 생성, 업데이트 또는 조정되는 True 경우. 안정False되면 로 전환합니다.

  • 성능 저하됨: 스페이스 리소스에서 오류가 감지되는 True 경우. 자세한 내용은 조건 메시지를 확인하세요.

  • 중지됨: 원하는 공간 상태가 로 설정된 True 경우Stopped. 포드는 종료되지만 스토리지 및 구성은 유지됩니다.

CloudWatch Logs 통합

CloudWatch 로깅 추가 기능을 설치하여 중앙 집중식 로그 관리 및 보존을 위해 스페이스 로그를 Amazon CloudWatch Logs로 전송할 수 있습니다. 이를 통해 여러 클러스터에서 로그를 집계하고 쿼리 및 분석을 위해 CloudWatch Insights와 통합할 수 있습니다. 위의 사용 가능한 모든 kubectl 로그는이 플러그인을 사용하여 CloudWatch에서 쿼리할 수 있습니다.

참조: https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-eks-cluster-observability-cluster-cloudwatch-ci.html.

HyperPod 관찰성 추가 기능

SageMaker HyperPod 관찰성 추가 기능은 스페이스 리소스 사용률을 모니터링하기 위한 포괄적인 대시보드를 제공합니다. 추가 기능을 설치한 후 Amazon Managed Grafana 대시보드에 지표를 표시하는 HyperPod 콘솔의 작업 탭에서 스페이스 메모리 및 CPU 사용량을 볼 수 있습니다.

참조: https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-hyperpod-observability-addon.html

사용 가능한 주요 지표:

  • 스페이스당 CPU 및 메모리 사용률

  • GPU 지표(해당하는 경우)