本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
计划程序在 PCS 中 AWS 登录
您可以将 AWS PCS 配置为将详细的日志数据从集群计划程序发送到亚马逊 CloudWatch 日志、亚马逊简单存储服务 (Amazon S3) Service 和 Amazon Data Firehose。这可以帮助进行监控和故障排除。
AWS PCS 通过日志类型传送来自以下 Slurm 守护程序的PCS_SCHEDULER_LOGS日志:
-
slurmctld— Slurm 控制器守护程序。适用于所有支持的 Slurm 版本。 -
slurmdbd— Slurm 数据库守护程序。适用于 Slurm 24.11 及更高版本。 -
slurmrestd— Slurm REST API 守护程序。适用于 Slurm 25.05 及更高版本。
已经配置了PCS_SCHEDULER_LOGS交付的集群在运行支持的 Slurm 版本时会自动开始接收slurmdbd和slurmrestd记录。无需其他配置。
先决条件
管理 AWS PCS 集群的 IAM 委托人必须允许该pcs:AllowVendedLogDeliveryForResource操作。
以下示例 IAM 策略授予所需的权限。
设置日程安排日志
您可以使用 AWS 管理控制台 或 AWS CLI为 AWS PCS 集群设置调度程序日志。
调度器日志流路径和名称
AWS PCS 计划程序日志的路径和名称取决于目标类型。
以下路径中的${log_name}值为slurmctldslurmdbd、或slurmrestd,具体取决于生成日志的守护程序。
-
CloudWatch 日志
-
CloudWatch 日志流遵循此命名约定。
AWSLogs/PCS/${cluster_id}/${log_name}_${scheduler_major_version}.log例
AWSLogs/PCS/abcdef0123/slurmctld_25.11.log AWSLogs/PCS/abcdef0123/slurmdbd_24.11.log AWSLogs/PCS/abcdef0123/slurmrestd_25.05.log
-
-
S3 存储桶
-
S3 存储桶输出路径遵循以下命名约定:
AWSLogs/${account-id}/PCS/${region}/${cluster_id}/${log_name}/${scheduler_major_version}/yyyy/MM/dd/HH/例
AWSLogs/111111111111/PCS/us-east-2/abcdef0123/slurmctld/25.11/2024/09/01/00/ AWSLogs/111111111111/PCS/us-east-2/abcdef0123/slurmdbd/24.11/2024/09/01/00/ AWSLogs/111111111111/PCS/us-east-2/abcdef0123/slurmrestd/25.05/2024/09/01/00/
-
S3 对象名称遵循以下约定:
PCS_${log_name}_${scheduler_major_version}_#{expr date 'event_timestamp', format: "yyyy-MM-dd-HH"}_${cluster_id}_${hash}.log例
PCS_slurmctld_25.11_2024-09-01-00_abcdef0123_0123abcdef.log
-
调度器日志记录示例
AWS PCS 调度程序日志是结构化的。除了 Slurm 守护程序进程发出的日志消息外,它们还包括集群标识符、调度器类型、主要版本和补丁版本等字段。log_name和node_type字段标识哪个守护程序生成了日志。
以下示例显示了一条slurmctld日志记录。
{
"resource_id": "s3431v9rx2",
"resource_type": "PCS_CLUSTER",
"event_timestamp": 1721230979,
"log_level": "info",
"log_name": "slurmctld",
"scheduler_type": "slurm",
"scheduler_major_version": "25.11",
"scheduler_patch_version": "2",
"node_type": "controller_primary",
"message": "[2024-07-17T15:42:58.614+00:00] Running as primary controller\n"
}
以下示例显示了一条slurmdbd日志记录(Slurm 24.11 及更高版本)。
{
"resource_id": "pcs_bu93qsds2j",
"resource_type": "PCS_CLUSTER",
"event_timestamp": 1774485082772,
"log_level": "info",
"log_name": "slurmdbd",
"scheduler_type": "slurm",
"scheduler_major_version": "25.11",
"scheduler_patch_version": "2",
"node_type": "slurmdbd_primary",
"message": "[2026-03-26T00:31:22.772+00:00] mysql_common: storage token refreshed"
}
以下示例显示了一条slurmrestd日志记录(Slurm 25.05 及更高版本)。
{
"resource_id": "pcs_bu93qsds2j",
"resource_type": "PCS_CLUSTER",
"event_timestamp": 1774485082772,
"log_level": "info",
"log_name": "slurmrestd",
"scheduler_type": "slurm",
"scheduler_major_version": "25.05",
"scheduler_patch_version": "3",
"node_type": "slurmrestd_primary",
"message": "[2026-03-26T00:31:22.772+00:00] slurmrestd: Listening on port 6820\n"
}