AWS PCS에서 Slurm을 사용하여 컴퓨팅 노드 재부팅 - AWS PCS

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWS PCS에서 Slurm을 사용하여 컴퓨팅 노드 재부팅

AWS PCS는 Slurm의 기본 scontrol reboot 명령을 지원합니다. EC2 인스턴스 교체 없이 컴퓨팅 노드를 재부팅하려면이 명령을 사용합니다. 다른 재부팅 방법(Amazon EC2 콘솔, , AWS CLI자동 패치 또는 시스템 유지 관리)으로 인해 AWS PCS는 EC2 인스턴스를 비정상으로 간주하여 교체합니다.

Slurm 재부팅의 이점

Slurm 재부팅은 클러스터 유지 관리에 몇 가지 이점을 제공합니다.

  • 용량 보존 - 용량이 제한된 EC2 인스턴스를 다른 고객에게 잃지 않도록 합니다.

  • 비용 절감 - 불필요한 인스턴스 교체 주기와 유휴 노드에 대한 지속적인 결제를 제거합니다.

  • 더 빠른 복구 - 인스턴스 교체에 비해 프로비저닝 지연이 없습니다.

  • 운영 유연성 - 메모리 누수를 지우고, 임시 파일을 제거하고, 성능이 저하된 상태에서 노드를 복구합니다.

Slurm 재부팅을 사용하는 경우

일반적인 운영 유지 관리 시나리오에는 Slurm 재부팅을 사용합니다.

  • 문제 해결 - 특히 GPU 노드의 경우 성능 문제 또는 응답하지 않는 프로세스를 해결합니다.

  • 리소스 정리 - 작업 성능에 영향을 미치는 메모리 누수/tmp,의 임시 파일 또는 중단된 프로세스를 지웁니다.

  • 복구 - 전체 노드 교체가 필요하기 전에 중단되거나 성능이 저하된 상태에서 노드를 복구합니다.

제한 사항

  • Slurm 관리자 사용자(루트 사용자)만 재부팅 명령을 실행할 수 있습니다.

  • 재부팅 지원은 로scontrol reboot만 제한됩니다.

  • RebootProgram 구성은 지원되지 않습니다.

  • 콘솔 인터페이스 없음 - 명령줄 전용.