기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
AWS PCS에서 용량 블록 사용에 대해 자주 묻는 질문
- 방금 용량 블록 비용을 지불하고 AWS PCS에서 즉시 사용하려고 했지만 컴퓨팅 노드 그룹 생성에 실패했습니다. 어떻게 된 걸까요?
-
용량 블록이
scheduled또는active상태가 아닐 수 있습니다. 용량 블록이scheduled또는가 된 후 다시 시도하세요active. - AWS PCS에서 용량 블록을 사용하고 있는데 익스텐션이 만료되기 전에 구입했습니다. AWS PCS에서 계속 사용하려면 어떻게 해야 하나요?
-
AWS PCS에서 용량 블록을 계속 사용하기 위해 아무 작업도 수행할 필요가 없습니다. 확장 결제가 성공한 후 용량 블록의 종료 날짜가 업데이트됩니다. 용량 블록이 만료되지 않는 한 컴퓨팅 노드 그룹은 계속 작동합니다. 확장 결제에 실패하면 용량 블록이 유지
active되고 컴퓨팅 노드 그룹은 원래 종료 날짜에 용량 블록이 만료될 때까지 작동합니다. - 용량 블록이 만료되면 대기 중인 작업과 실행 중인 작업은 어떻게 되나요?
-
용량 블록이 만료되기 전에 시작되지 않은 대기 중인 작업은 다른 컴퓨팅 노드 그룹을 대기열에 연결하거나 컴퓨팅 노드 그룹을 새 용량 블록으로 업데이트할 때까지 보류 상태로 유지됩니다. 여전히 대기열에 작업을 제출할 수 있습니다. Slurm 설정은 활성 작업에 영향을 미칩니다. 기본적으로 활성 작업은 자동으로 다시 대기열에 추가되지만 오류가 발생하거나 실패할 수 있습니다.
- 내 용량 블록이 만료되었습니다. 어떻게 해야 하나요?
-
아무 작업도 할 필요가 없습니다. Amazon EC2 콘솔에서 EC2 용량 예약 상태를 확인할 수 있습니다. 용량 블록이 만료되면 해당 용량 블록과 연결된 컴퓨팅 노드 그룹이 계속 존재하고 동일한 대기열을 처리합니다. 컴퓨팅 노드 그룹에는 작업을 실행할 인스턴스가 없습니다. 사용자가 실행되지 않는 작업을 제출하지 못하도록 컴퓨팅 노드 그룹을 삭제하거나 대기열에서 연결을 해제할 수 있습니다.
- AWS PCS 컴퓨팅 노드 그룹에 새 용량 블록을 사용하려고 합니다. 어떻게 해야 합니까?
-
새 용량 블록을 사용하려면 새 컴퓨팅 노드 그룹을 생성하는 것이 좋습니다. 자세한 내용은 용량 블록을 사용하도록 AWS PCS 컴퓨팅 노드 그룹 구성 단원을 참조하십시오.
- 클러스터와 서비스 간에 용량 블록 1개를 공유하려면 어떻게 해야 하나요?
-
용량 블록을 여러 클러스터와 서비스로 분할할 수 있습니다. 예를 들어, PCS-Cluster-1에 노드가 20개, PCS-Cluster-2에 노드가 16개PCS-Cluster-2, 다른 서비스에 대한 나머지 노드가 있는
p5.48xlarge인스턴스 64개로 용량 블록을 분할하려면 PCS-Cluster-1의 경우minInstanceCount및maxInstanceCount를 모두 20으로 설정하고 PCS-Cluster-2의 경우 16으로 설정합니다. - 용량 블록을 1개 이상 사용하거나 컴퓨팅 노드 그룹을 1개 이상 사용할 수 있나요?
-
아니요. 용량 블록 1개만 단일 컴퓨팅 노드 그룹과 연결할 수 있습니다. AWS PCS는 여러 용량 블록을 결합하는 용량 예약 그룹을 지원하지 않습니다.
- 용량 블록이 시작되거나 만료되는 시기를 어떻게 알 수 있나요?
-
AWS PCS와 독립적으로 Amazon EC2는 용량 블록 예약이 시작될 때 EventBridge를 통해
Capacity Block Reservation Delivered이벤트를 전송하고 용량 블록 예약이 만료되기 40분 전에Capacity Block Reservation Expiration Warning이벤트를 전송합니다. 자세한 내용은 Amazon Elastic Compute Cloud 사용 설명서의 EventBridge를 사용하여 용량 블록 모니터링을 참조하세요. - Slurm은 용량 블록의 상태를 어떻게 추적하나요?
-
를 실행
sinfo하여 AWS PCS가 용량 블록을 사용하는 방법을 이해할 수 있습니다. 다음 예제 출력에서 대기열은active용량 블록에서 4개의 인스턴스를 실행하는 컴퓨팅 노드 그룹과 연결됩니다. 노드는idleSlurm 상태(사용 가능하지만 아직 작업에 할당되지 않음)입니다.$ sinfo PARTITION AVAIL TIMELIMIT NODES STATE NODELIST fanout up infinite 4 idle node-fanout-[1-4]노드가 대신
maint상태인 경우를 실행scontrol show res하여이 상태를 제어하는 Slurm 예약에 대한 세부 정보를 볼 수 있습니다. 다음 예제 출력에서 용량 블록은 미래 시작 날짜를scheduled갖습니다.$ scontrol show res ReservationName=node-fanout-scheduled StartTime=2025-10-14T13:09:17 EndTime=2025-10-14T13:11:17 Duration=00:02:00 Nodes=node-fanout-[1-4] NodeCnt=4 CoreCnt=16 Features=(null) PartitionName=(null) Flags=MAINT,SPEC_NODES TRES=cpu=16 Users=root Groups=(null) Accounts=(null) Licenses=(null) State=ACTIVE BurstBuffer=(null) MaxStartDelay=(null) Comment=node-fanout Scheduled - 용량 블록이 공유되기 때문에 용량을 시작하는 동안 발생하는 오류가 인지 어떻게 알 수 있습니까?
-
Amazon EC2 콘솔에서 용량 예약을 확인하여 용량 블록에서 활발하게 프로비저닝된 인스턴스 수를 확인합니다. 각 인스턴스의 태그를 확인하여 인스턴스를 사용하는 서비스 또는 클러스터를 찾습니다. 예를 들어 AWS , PCS의 모든 인스턴스에는 인스턴스
aws:pcs:cluster-id = pcs_l0mizqyk5o | aws:pcs:compute-node-group-id = pcs_ic7onkmfqk가 속한 클러스터 및 컴퓨팅 노드 그룹을 나타내는와 같은 AWS PCS 태그가 있습니다. 그런 다음 용량 블록이 최대 용량인지 확인할 수 있습니다.scontrol show nodes를 사용하여 AWS PCS 클러스터의 용량 블록 노드가를 트리거하고 있는지 확인합니다ReservationCapacityExceeded.[root@ip-172-16-10-54 ~]# scontrol show nodes test-node-8-gamma-cb-2 NodeName=test-8-gamma-cb-2 CoresPerSocket=1 CPUAlloc=0 CPUEfctv=8 CPUTot=8 CPULoad=0.00 AvailableFeatures=test-8-gamma-cb,gpu ActiveFeatures=test-8-gamma-cb,gpu Gres=gpu:H100:1 NodeAddr=test-8-gamma-cb-2 NodeHostName=test-8-gamma-cb-2 RealMemory=249036 AllocMem=0 FreeMem=N/A Sockets=8 Boards=1 State=IDLE+CLOUD+POWERING_DOWN ThreadsPerCore=1 TmpDisk=0 Weight=1 Owner=N/A MCS_label=N/A Partitions=my-q BootTime=None SlurmdStartTime=None LastBusyTime=Unknown ResumeAfterTime=None CfgTRES=cpu=8,mem=249036M,billing=8 AllocTRES= CurrentWatts=0 AveWatts=0 Reason=Failed to launch backing instance (Error Code: ReservationCapacityExceeded) [root@2025-08-28T15:15:33] - 여러 컴퓨팅 노드 그룹이 동일한 대기열에 연결된 경우 용량 블록 지원 인스턴스에서 작업을 강제로 실행하려면 어떻게 해야 합니까?
-
Slurm 기능 및 제약 조건을 사용하여 작업을 특정 노드 세트에 잠글 수 있습니다. 각 컴퓨팅 노드 그룹에 대해 Slurm 가중치를 설정하지 않는 것이 좋습니다. 상태가 아닌 노드에서만 작동하기 때문입니다
maint.