

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 我設定隨需容量保留 ODCRs) 或區域預留執行個體
<a name="compute-node-initialization-odcr-v3"></a>

## 包含具有多個網路介面的執行個體ODCRs，例如 P4d, P4de 和 AWS Trainium (Trn)
<a name="compute-node-initialization-odcr-multi-ni-v3"></a>

在叢集組態檔案中，檢查 `HeadNode` 是否位於公有子網路中，以及運算節點是否位於私有子網路中。

## ODCRs是目標 ODCRS
<a name="compute-node-initialization-odcr-targeted-v3"></a>

### 遵循 中的指示，`Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'.`即使我已經`/opt/slurm/etc/pcluster/run_instances_overrides.json`就地查看 [使用隨需容量預留 (ODCR) 啟動執行個體](launch-instances-odcr-v3.md)
<a name="compute-node-initialization-odcr-targeted-noread-v3"></a>

如果您使用 3.1.1 到 3.2.1 AWS ParallelCluster 版搭配目標 ODCRs，而且您也使用[執行執行個體覆寫 JSON 檔案](launch-instances-odcr-v3.md)，則您的 JSON 檔案格式可能不正確。您可以在 中看到錯誤`clustermgtd.log`，如下所示：

```
Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. 
Using default: {} in  /var/log/parallelcluster/clustermgtd.
```

執行下列動作來驗證 JSON 檔案格式是否正確：

```
$ echo /opt/slurm/etc/pcluster/run_instances_overrides.json | jq
```

### 在叢集建立失敗`Found RunInstances parameters override.``clustermgtd.log`時查看 ，或在執行任務失敗`slurm_resume.log`時查看
<a name="compute-node-initialization-odcr-targeted-override-v3"></a>

如果您使用的是[執行執行個體覆寫 JSON 檔案](launch-instances-odcr-v3.md)，請檢查您是否在 `/opt/slurm/etc/pcluster/run_instances_overrides.json` 檔案中正確設定佇列名稱和運算資源名稱。

### 當我無法執行任務`An error occurred (InsufficientInstanceCapacity)``slurm_resume.log`時查看 ，或當我無法建立叢集`clustermgtd.log`時查看 。
<a name="compute-node-initialization-odcr-ii-capacity-v3"></a>

#### 使用 PG-ODCR （配置群組 ODCR)
<a name="compute-node-initialization-odcr-ii-pg-capacity-v3"></a>

使用相關聯的置放群組建立 ODCR 時，必須在組態檔案中使用相同的置放群組名稱。在叢集組態中設定對應的[置放群組名稱](Scheduling-v3.md#yaml-Scheduling-SlurmQueues-Networking-PlacementGroup)。

#### 使用區域預留執行個體
<a name="compute-node-initialization-odcr-ii-zonal-capacity-v3"></a>

如果您在叢集組態`true`中使用區域預留執行個體搭配 `PlacementGroup` / `Enabled`到 ，您可能會看到錯誤，如下所示：

```
We currently do not have sufficient trn1.32xlarge capacity in the Availability Zone you requested (us-east-1d). Our system will be working on provisioning additional capacity. 
You can currently get trn1.32xlarge capacity by not specifying an Availability Zone in your request or choosing us-east-1a, us-east-1b, us-east-1c, us-east-1e, us-east-1f.
```

您可能會看到這種情況，因為區域預留執行個體未放置在相同的 UC （或脊椎） 中，這可能會在使用置放群組時導致容量不足錯誤 (ICEs)。您可以在叢集組態中停用`PlacementGroup`群組設定，以判斷叢集是否可以配置執行個體，藉此檢查此案例。