本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
对 PCS 中的自定义 Slurm 设置进行故障排除 AWS
如果您在使用 Slurm 自定义设置创建或更新 AWS PCS 资源时遇到错误,则可以使用日志记录来诊断和解决问题。
对不兼容的 Slurm 自定义设置进行故障排除
问题:在执行群集、计算节点组或队列操作时,您会收到类似以下内容的错误消息:
{OPERATION} failed. The Slurm custom settings of the cluster might be incompatible. Check the settings and try again.
以下操作可能会出现此错误:
-
CreateCluster
-
CreateComputeNodeGroup
-
UpdateComputeNodeGroup
-
CreateQueue
-
UpdateQueue
解决方案:启用日志记录功能以了解具体问题并对不兼容的设置进行故障排除。
要解决不兼容的 Slurm 自定义设置问题
-
如果集群尚不存在,请创建该集群,或者确保您的现有集群处于可以启用日志记录的状态。
-
为您的集群启用日志记录。有关详细说明,请参阅AWS PCS 的日志记录和监控。
注意
创建集群后,即可启用日志记录。
-
查看日志,找出导致不兼容的特定 Slurm 配置问题。
-
根据日志信息更正不兼容的自定义设置,然后重试该操作。
有关支持的 Slurm 自定义设置的信息,请参阅: