本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
对包含 AWS ParallelCluster 自定义资源的堆栈进行故障排除
使用 AWS ParallelCluster 自定义资源,从新的独立堆栈 CloudFormation 部署群集。您可以通过执行以下步骤来监控集群创建:
-
导航到, AWS 管理控制台 然后 CloudFormation 在导航窗格中选择 Stacks。
-
选择名为您为集群名称定义的名称的堆栈。
-
如果堆栈状态为
ROLLBACK_COMPLETE,则表明在创建集群过程中出现了错误。 -
选择堆栈详细信息,然后选择事件选项卡。
-
在逻辑 ID 上搜索事件,查找您为集群名称定义的名称。该事件包含一个
Status reason,给出问题的理由。 -
您也可以选择堆栈下拉菜单,然后选择已删除以查看已删除堆栈的列表。选择包含该集群名称的堆栈并查看事件以了解更多详细信息。
-
要查看管理群集的自定义资源提供程序的输出,请选择描述为 “AWS ParallelCluster 群集自定义资源” 的堆栈。选择资源选项卡,找到逻辑 ID 为
PclusterCfnFunctionLogGroup的资源,然后点击提供的链接。查看显示 Lambda 调试输出的日志流。 -
要对集群进行故障排除,请参阅 AWS ParallelCluster 故障排除。