对 PCS 中的自定义 Slurm 设置进行故障排除 AWS - AWS PC

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

对 PCS 中的自定义 Slurm 设置进行故障排除 AWS

如果您在使用 Slurm 自定义设置创建或更新 AWS PCS 资源时遇到错误,则可以使用日志记录来诊断和解决问题。

对不兼容的 Slurm 自定义设置进行故障排除

问题:在执行群集、计算节点组或队列操作时,您会收到类似以下内容的错误消息:

{OPERATION} failed. The Slurm custom settings of the cluster might be incompatible. Check the settings and try again.

以下操作可能会出现此错误:

  • CreateCluster

  • CreateComputeNodeGroup

  • UpdateComputeNodeGroup

  • CreateQueue

  • UpdateQueue

解决方案:启用日志记录功能以了解具体问题并对不兼容的设置进行故障排除。

要解决不兼容的 Slurm 自定义设置问题
  1. 如果集群尚不存在,请创建该集群,或者确保您的现有集群处于可以启用日志记录的状态。

  2. 为您的集群启用日志记录。有关详细说明,请参阅AWS PCS 的日志记录和监控

    注意

    创建集群后,即可启用日志记录。

  3. 查看日志,找出导致不兼容的特定 Slurm 配置问题。

  4. 根据日志信息更正不兼容的自定义设置,然后重试该操作。

有关支持的 Slurm 自定义设置的信息,请参阅: