기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
AWS PCS에서 사용자 지정 Slurm 설정 구성
사용자 지정 Slurm 설정을 사용하여 클러스터, 대기열 및 컴퓨팅 노드 그룹 리소스에서 추가 Slurm 파라미터를 구성합니다. 이 릴리스에는 대기열 리소스의 Slurm 설정에 대한 지원이 추가되어 파티션별 동작을 세부적으로 제어할 수 있습니다.
사용자 지정 Slurm 설정의 이점
사용자 지정 Slurm 설정은 AWS PCS 기반 HPC 환경을 세밀하게 제어할 수 있습니다. quality-of-service 구성 및 선점 정책을 통해 상세한 회계를 구현하고, 액세스 제어를 적용하고, 워크로드 실행을 최적화할 수 있습니다. 이러한 기능을 사용하면 중요한 작업이 효율적인 클러스터 사용률을 유지하면서 필요한 리소스를 받을 수 있습니다. GPU 가속 워크로드를 관리하든, 공정 공유 일정을 구현하든, 작업 수명 주기를 제어하든 관계없이 사용자 지정 설정은 HPC 인프라를 운영 요구 사항 및 연구 목표에 맞게 조정하는 데 도움이 됩니다.
사용자 지정 설정 구성
사용자 지정 Slurm 설정은 리소스 생성 중에 AWS 콘솔, CLI 또는 SDKs를 통해 구성하거나 업데이트 작업을 통해 나중에 수정할 수 있습니다.
검증 및 오류 처리
AWS PCS는 사용자 지정 Slurm 설정을 위한 다중 계층 검증 프로세스를 구현합니다. 생성 및 업데이트 작업 모두에서 다음을 포함하는 동기 검증을 수행합니다.
-
필드 수준 검사: 올바른 데이터 유형, 허용되는 값 및 형식 요구 사항에 대한 개별 설정을 검증합니다. 예를 들어 시간 값이 올바른 Slurm 형식이고 부울 값이 허용되는 Slurm 부울 표현을 사용하는지 확인합니다.
-
컨텍스트 인식 검증: 일부 설정은 더 광범위한 구성 컨텍스트와 비교하여 확인됩니다. 예를 들어 특정 파라미터는 Slurm 회계가 활성화된 경우에만 유효합니다.
-
설정 간 일관성: 상호 배타적인 옵션이 함께 설정되지 않고 상호 종속적인 설정이 올바르게 구성되었는지 확인합니다.
검증에 실패하면 특정 오류 코드(예: InvalidInput), 문제를 설명하는 명확한 오류 메시지, 잘못된 필드 목록 및 해당 오류 세부 정보가 ValidationException
포함된를 받게 됩니다.
이 초기 검증 중에 많은 문제가 발견되지만 구성을 적용할 때만 설정 간의 일부 복잡한 상호 작용이 명백해질 수 있습니다. 이러한 경우 유용한 오류 메시지와 함께 작업이 실패하고 부분적인 변경 사항이 롤백됩니다.
제한 사항
AWS PCS는 허용 목록 접근 방식을 구현하여 서비스 보안 및 운영 안정성을 보호합니다. 서비스 계정 보안을 손상시키거나 관리형 서비스 기능을 방해할 수 있는 설정은 제한됩니다. 그러나 고객 요구 사항을 지속적으로 평가하며 고객 피드백을 기반으로 추가 설정에 대한 지원을 추가할 수 있습니다.