

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 스팟 인스턴스 작업
<a name="spot-v3"></a>

AWS ParallelCluster 클러스터 구성 파일`SPOT`에서 [`SlurmQueues`](Scheduling-v3.md#Scheduling-v3-SlurmQueues) / [`CapacityType`](Scheduling-v3.md#yaml-Scheduling-SlurmQueues-CapacityType) 또는 /를 [`CapacityType`](Scheduling-v3.md#yaml-Scheduling-AwsBatchQueues-CapacityType)로 설정한 경우 [`AwsBatchQueues`](Scheduling-v3.md#Scheduling-v3-AwsBatchQueues)는 스팟 인스턴스를 사용합니다. 스팟 인스턴스는 온디맨드 인스턴스보다 비용 효율적이지만 중단될 수 있습니다. Amazon EC2가 *스팟 인스턴스를 중지하거나 종료하기 2분 전에 경고를 제공하는 스팟 인스턴스 중단 알림을* 활용하는 데 도움이 될 수 있습니다. 자세한 내용은 *Amazon EC2 사용 설명서*의 [스팟 인스턴스 중단](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/spot-interruptions.html)을 참조하세요. 스팟 인스턴스의 [`AwsBatchQueues`](Scheduling-v3.md#Scheduling-v3-AwsBatchQueues) 작동 방식을 알아보려면AWS Batch 사용 설명서**의 [컴퓨팅 리소스](https://docs.aws.amazon.com/batch/latest/userguide/compute_environment_parameters.html#compute_environment_compute_resources)를 참조하세요.

 AWS ParallelCluster 구성된 스케줄러는 온디맨드 인스턴스가 있는 대기열의 컴퓨팅 리소스에 작업을 할당하는 것과 동일한 방식으로 스팟 인스턴스가 있는 대기열의 컴퓨팅 리소스에 작업을 할당합니다.

스팟 인스턴스를 사용할 경우 계정에 AWSServiceRoleForEC2Spot 서비스 연결 역할이 있어야 합니다. 를 사용하여 계정에서이 역할을 생성하려면 다음 명령을 AWS CLI실행합니다.

```
$ aws iam create-service-linked-role --aws-service-name spot.amazonaws.com
```

자세한 내용은 *Amazon EC2 사용 설명서*에서 [스팟 인스턴스 요청을 위한 서비스 연결 역할](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/spot-requests.html#service-linked-roles-spot-instance-requests)을 참조하세요.

다음 섹션에서는 [`SlurmQueues`](Scheduling-v3.md#Scheduling-v3-SlurmQueues)를 사용할 경우 스팟 인스턴스가 중단될 수 있는 세 가지 시나리오를 설명합니다.

# 시나리오 1: 실행 중인 작업이 없는 스팟 인스턴스가 중단됨
<a name="no-jobs-v3"></a>

이 중단이 발생하면 스케줄러 대기열에 추가 인스턴스가 필요한 보류 중인 작업이 있거나 활성 인스턴스 수가 [`SlurmQueues`](Scheduling-v3.md#Scheduling-v3-SlurmQueues) / [`ComputeResources`](Scheduling-v3.md#Scheduling-v3-SlurmQueues-ComputeResources) /보다 적은 경우 인스턴스를 교체하려고 AWS ParallelCluster 시도합니다[`MinCount`](Scheduling-v3.md#yaml-Scheduling-SlurmQueues-ComputeResources-MinCount). 가 새 인스턴스를 프로비저닝할 AWS ParallelCluster 수 없는 경우 새 인스턴스에 대한 요청이 주기적으로 반복됩니다.

# 시나리오 2: 단일 노드 작업을 실행하는 스팟 인스턴스가 중단됨
<a name="single-node-v3"></a>

상태 코드 `NODE_FAIL`으로 작업이 실패하고, 작업이 다시 대기열에 들어갑니다(작업 제출 시 `--no-requeue`이 지정되지 않은 한). 노드가 정적 노드인 경우 해당 노드가 교체됩니다. 노드가 동적 노드인 경우 노드가 종료되고 재설정됩니다. `--no-requeue` 파라미터를 포함한 `sbatch`에 관한 자세한 내용은 *Slurm 설명서*의 [https://slurm.schedmd.com/sbatch.html](https://slurm.schedmd.com/sbatch.html)를 참조하세요.

# 시나리오 3: 다중 노드 작업을 실행하는 스팟 인스턴스가 중단됨
<a name="multi-node-v3"></a>

상태 코드 `NODE_FAIL`으로 작업이 실패하고, 작업이 다시 대기열에 들어갑니다(작업 제출 시 `--no-requeue`이 지정되지 않은 한). 노드가 정적 노드인 경우 해당 노드가 교체됩니다. 노드가 동적 노드인 경우 노드가 종료되고 재설정됩니다. 종료된 작업을 실행 중이었던 다른 노드는 구성된 [`SlurmSettings`](Scheduling-v3.md#Scheduling-v3-SlurmSettings)/[`ScaledownIdletime`](Scheduling-v3.md#yaml-Scheduling-SlurmSettings-ScaledownIdletime)시간이 경과한 후에 스케일 다운될 수 있습니다.

스팟 인스턴스에 대한 자세한 내용은 *Amazon EC2 사용 설명서*의 [스팟 인스턴스](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/using-spot-instances.html)를 참조하세요.