View a markdown version of this page

我配置了按需容量预留 (ODCR) 或区域预留实例 - AWS ParallelCluster

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

我配置了按需容量预留 (ODCR) 或区域预留实例

包含具有多个网络接口的实例的 ODCR,例如 p4d、p4de 和 AWS Trainium (Trn)

在集群配置文件中,检查 HeadNode 是否位于公有子网中,以及计算节点是否位于私有子网中。

ODCR 是定向 ODCR

看到无法读取文件 'opt/slurm/etc/pcluster/run _instances_overrides.json'。 尽管按照中给出的说明我已经有了 etc/pcluster//opt/slurm/run_instances_overrides .json 使用按需容量预留(ODCR)启动实例

如果您将 3.1.1 到 3.2.1 AWS ParallelCluster 版本与目标 ODCR 一起使用,并且还使用运行实例覆盖 JSON 文件,则可能您的 JSON 文件格式不正确。您可能会在 clustermgtd.log 中看到错误,例如下面的错误:

Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. Using default: {} in /var/log/parallelcluster/clustermgtd.

通过运行以下命令验证 JSON 文件格式是否正确:

$ echo /opt/slurm/etc/pcluster/run_instances_overrides.json | jq

看到找到的 RunInstances 参数会被覆盖。clustermgtd.log 当集群创建失败时,或者在 slurm_resume.log 当运行作业失败时

如果您使用的是运行实例覆盖 JSON 文件,请检查是否在 /opt/slurm/etc/pcluster/run_instances_overrides.json 文件中正确设置了队列名称和计算资源名称。

看到当我无法运行作业时 slurm_resume.log 中出现错误 (InsufficientInstanceCapacity),或者当我创建集群失败时 clustermgtd.log 中出现错误

使用 PG-ODCR (置放群组 ODCR)

创建具有关联置放群组的 ODCR 时,必须在配置文件中使用相同的置放群组名称。在集群配置中设置相应的置放群组名称

使用区域预留实例

如果您使用区域预留实例并在集群配置中将 PlacementGroup/Enabled 设置为 true,则可能会看到错误,例如下面的错误:

We currently do not have sufficient trn1.32xlarge capacity in the Availability Zone you requested (us-east-1d). Our system will be working on provisioning additional capacity. You can currently get trn1.32xlarge capacity by not specifying an Availability Zone in your request or choosing us-east-1a, us-east-1b, us-east-1c, us-east-1e, us-east-1f.

看到此错误可能是因为区域预留实例未放置在同一 UC(或脊柱)中,在使用置放群组时,这可能会导致容量不足错误 (ICE)。您可以通过在集群配置中禁用 PlacementGroup 群组设置来检查这种情况,以确定集群是否可以分配实例。