[cluster] 部分 - AWS ParallelCluster

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

[cluster] 部分

定义可用于创建集群的集群模板。配置文件可以包含多个 [cluster] 部分。

可以使用同一个集群模板创建多个集群。

格式为 [cluster cluster-template-name]。默认情况下,使用由 [global] 部分中的 cluster_template 设置命名的 [cluster] 部分,但可以在 pcluster 命令行上覆盖。

cluster-template-name必须以字母开头,不能超过 30 个字符,并且只能包含字母、数字、连字符 (-) 和下划线 (_)。

[cluster default]

additional_cfn_template

(可选)定义要与集群一起启动的附加AWS CloudFormation模板。此附加模板用于创建存在于集群外部但属于集群生命周期一部分的资源。

值必须是指向公有模板的 HTTP URL,并提供所有参数。

没有默认值。

additional_cfn_template = https://<bucket-name>.s3.amazonaws.com/my-cfn-template.yaml

更新策略:如果更改此设置,则不允许更新。

additional_iam_policies

(可选)为亚马逊 IAM 策略指定亚马逊资源名称列表 (ARNs) EC2。除了AWS ParallelCluster所需的权限(以逗号分隔)之外,此列表也附加到集群中使用的根角色。IAM 策略名称及其 ARN 不相同。名称不能用作 additional_iam_policies 的参数。

如果您打算在集群节点的默认设置中添加额外的策略,我们建议您将其他自定义 IAM 策略与additional_iam_policies设置一起传递,而不是使用ec2_iam_role设置来添加您的特定 EC2 策略。这是因为additional_iam_policies已添加到AWS ParallelCluster所需的默认权限中。现有 ec2_iam_role 必须包含所需的所有权限。但是,随着功能的添加,不同版本之间所需的权限通常会有所不同,因此现有的 ec2_iam_role 可能会过时。

没有默认值。

additional_iam_policies = arn:aws:iam::123456789012:policy/CustomEC2Policy
注意

在AWS ParallelCluster版本 2.5.0 中增加了对 additional_iam_policies 的支持。

更新策略:可以在更新期间更改此设置。

base_os

(必需)指定在集群中使用的操作系统类型。

可用的选项为:

  • alinux2

  • centos7

  • ubuntu1804

  • ubuntu2004

注意

对于AWS基于 Graviton 的实例,仅alinux2支持ubuntu1804、或ubuntu2004

注意

在 2.11.4 AWS ParallelCluster版本中删除centos8了对 Support 的支持。在AWS ParallelCluster版本 2.11.0 中增加了对 ubuntu2004 的支持,并删除了对 alinuxubuntu1604 的支持。在 2.10.0 AWS ParallelCluster版本中添加centos8centos6了对的支持,并删除了对的支持。在AWS ParallelCluster版本 2.6.0 中增加了对 alinux2 的支持。在AWS ParallelCluster版本 2.5.0 中增加了对 ubuntu1804 的支持,并删除了对 ubuntu1404 的支持。

除下表中AWS 区域提到的具体内容外,其他不支持centos7。所有其他AWS商业区域都支持以下所有操作系统。

分区(AWS 区域) alinux2 centos7 ubuntu1804ubuntu2004
商业(均AWS 区域未特别提及) True True True
AWS GovCloud (美国东部)(us-gov-east-1) True False True
AWS GovCloud (美国西部)(us-gov-west-1) True False True
中国(北京) (cn-north-1) True False True
中国(宁夏) (cn-northwest-1) True False True
注意

base_os 参数还确定用于登录集群的用户名。

  • centos7: centos

  • ubuntu1804ubuntu2004ubuntu

  • alinux2: ec2-user

注意

在 2.7.0 AWS ParallelCluster版本之前,该base_os参数是可选的,默认值为。alinux从AWS ParallelCluster版本 2.7.0 开始,base_os 参数是必需的。

注意

如果 scheduler 参数为 awsbatch,则仅支持 alinux2

base_os = alinux2

更新策略:如果更改此设置,则不允许更新。

cluster_resource_bucket

(可选)指定用于托管创建集群时生成的资源的 Amazon S3 存储桶的名称。桶必须启用版本控制。有关更多信息,请参阅 Amazon Simple Storage Service 用户指南 中的使用版本控制。此存储桶可用于多个集群。桶和集群必须位于同一区域中。

如果未指定此参数,则在创建集群时会创建新桶。新桶的名称为 parallelcluster-random_string。在这个名字中,random_string是一个由字母数字字符组成的随机字符串。所有集群资源都存储在此存储桶中,路径为:bucket_name/resource_directory resource_directory有形式stack_name-random_string,其中stack_name是使用的其中一个CloudFormation堆栈的名称。AWS ParallelCluster的值bucket_name可以在parallelcluster-clustername堆栈输出的ResourcesS3Bucket值中找到。的值resource_directory可以在同一堆栈的ArtifactS3RootDirectory输出值中找到。

默认值为 parallelcluster-random_string

cluster_resource_bucket = amzn-s3-demo-bucket
注意

在 2.10.0 AWS ParallelCluster版本中添加cluster_resource_bucket了对 Support 的支持。

更新策略:如果更改此设置,则不允许更新。不能强制更新此设置。

cluster_type

(可选)定义要启动的集群的类型。如果定义了 queue_settings 设置,则必须在 [queue] 部分中将此设置替换为 compute_type 设置。

有效的选项为:ondemandspot

默认值为 ondemand

有关竞价型实例的更多信息,请参阅使用竞价型实例

注意

使用竞价型实例要求您的账户中存在 AWSServiceRoleForEC2Spot 服务相关角色。要使用在您的账户中创建此角色AWS CLI,请运行以下命令:

aws iam create-service-linked-role --aws-service-name spot.amazonaws.com

有关更多信息,请参阅 Amazon EC2 用户指南中的竞价型实例请求的服务相关角色

cluster_type = ondemand

更新策略:必须停止计算实例集才能更改此设置以进行更新。

compute_instance_type

(可选)定义用于集群计算节点的 Amazon EC2 实例类型。该实例类型的架构必须与用于 master_instance_type 设置的架构相同。如果定义了 queue_settings 设置,则必须在 [compute_resource] 部分中将此设置替换为 instance_type 设置。

如果您使用的是awsbatch调度程序,请参阅AWS Batch用户界面中创建的计算环境以获取支持的实例类型列表。

默认值为 t2.micro;当调度器为 awsbatch 时,为 optimal

compute_instance_type = t2.micro
注意

2.8.0 版本中增加了对AWS基于 Graviton 的C6g实例(包括A1和实例)的AWS ParallelCluster支持。

更新策略:必须停止计算实例集才能更改此设置以进行更新。

compute_root_volume_size

(可选)以千兆字节 (GiB) 为单位指定 ComputeFleet 根卷大小。AMI 必须支持 growroot

默认值为 35

注意

对于 2.5.0 和 2.10.4 之间的AWS ParallelCluster版本,默认值为 25。在 2.5.0 AWS ParallelCluster版本之前,默认值为 20。

compute_root_volume_size = 35

更新策略:必须停止计算实例集才能更改此设置以进行更新。

custom_ami

(可选)指定用于头节点和计算节点的自定义 AMI 的 ID,而不是默认发布的 AMI AMIs。有关更多信息,请参阅 修改 AMI构建自定义 AWS ParallelCluster AMI

没有默认值。

custom_ami = ami-00d4efc81188687a0

如果自定义 AMI 需要其他权限才能启动,则必须将这些权限添加到用户和头节点策略中。

例如,如果自定义 AMI 具有与之关联的加密快照,则用户和头节点策略中都需要以下其他策略:

JSON
{ "Version":"2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "kms:DescribeKey", "kms:ReEncrypt*", "kms:CreateGrant", "kms:Decrypt" ], "Resource": [ "arn:aws:kms:us-east-1:111122223333:key/<AWS_KMS_KEY_ID>" ] } ] }

更新策略:如果更改此设置,则不允许更新。

cw_log_settings

(可选)使用 CloudWatch 日志配置标识该[cw_log]部分。部分名称必须以字母开头,不能超过 30 个字符,并且只能包含字母、数字、连字符 (-) 和下划线 (_)。

有关更多信息,请参阅 [cw_log] 部分亚马逊 CloudWatch 控制面板与 Amazon CloudWatch 日志集成

例如,以下设置指定启动部分[cw_log custom-cw]用于 CloudWatch 日志配置。

cw_log_settings = custom-cw
注意

在 2.6.0 AWS ParallelCluster版本中添加cw_log_settings了对 Support 的支持。

更新策略:如果更改此设置,则不允许更新。

dashboard_settings

(可选)使用 CloudWatch仪表板配置标识该[dashboard]部分。部分名称必须以字母开头,不能超过 30 个字符,并且只能包含字母、数字、连字符 (-) 和下划线 (_)。

有关更多信息,请参阅 [dashboard] 部分

例如,以下设置指定启动的部分[dashboard custom-dashboard用于 CloudWatch 仪表板配置。

dashboard_settings = custom-dashboard
注意

在 2.10.0 AWS ParallelCluster版本中添加dashboard_settings了对 Support 的支持。

更新策略:可以在更新期间更改此设置。

dcv_settings

(可选)使用 Amazon DCV 配置标识 [dcv] 部分。部分名称必须以字母开头,不能超过 30 个字符,并且只能包含字母、数字、连字符 (-) 和下划线 (_)。

有关更多信息,请参阅 [dcv] 部分

例如,以下设置指定将以 [dcv custom-dcv] 开始的部分用于 Amazon DCV 配置。

dcv_settings = custom-dcv
注意

在AWS基于 Graviton 的实例上,仅支持 Amazon DCV。alinux2

注意

在 2.5.0 AWS ParallelCluster版本中添加dcv_settings了对 Support 的支持。

更新策略:如果更改此设置,则不允许更新。

desired_vcpus

(可选)指定计算环境CPUs 中所需的 v 数。仅在调度器为 awsbatch 时使用。

默认值为 4

desired_vcpus = 4

更新策略:在更新期间不分析此设置。

disable_cluster_dns

(可选)指定是否不应为集群创建 DNS 条目。默认情况下,AWS ParallelCluster会创建 Route 53 托管区域。如果 disable_cluster_dns 设置为 true,则不会创建托管区。

默认值为 false

disable_cluster_dns = true
警告

集群需要名称解析系统才能正常运行。如果 disable_cluster_dns 设置为 true,则还必须提供其他名称解析系统。

重要

只有在指定了 queue_settings 设置时才支持 disable_cluster_dns = true

注意

在 2.9.1 AWS ParallelCluster版本中增加了对 Support 的支持。disable_cluster_dns

更新策略:如果更改此设置,则不允许更新。

disable_hyperthreading

(可选)禁用头节点和计算节点上的超线程。并非所有实例类型都可以禁用超线程。有关支持禁用超线程的实例类型列表,请参阅 A mazon EC2 用户指南中每种实例类型的 CPU 核心和每个 CPU 内核的线程。如果定义了 queue_settings 设置,则可以定义此设置,也可以定义 [queue] 部分中的 disable_hyperthreading 设置。

默认值为 false

disable_hyperthreading = true
注意

disable_hyperthreading 仅在 scheduler = awsbatch 时影响头节点。

注意

在AWS ParallelCluster版本 2.5.0 中增加了对 disable_hyperthreading 的支持。

更新策略:如果更改此设置,则不允许更新。

ebs_settings

(可选)使用头节点上挂载的 Amazon EBS 卷标识 [ebs] 部分。使用多个 Amazon EBS 卷时,请以列表形式输入这些参数,用逗号分隔每个参数。部分名称必须以字母开头,不能超过 30 个字符,并且只能包含字母、数字、连字符 (-) 和下划线 (_)。

支持最多五 (5) 个额外的 Amazon EBS 卷。

有关更多信息,请参阅 [ebs] 部分

例如,以下设置指定将以 [ebs custom1][ebs custom2] 开始的部分用于 Amazon EBS 卷。

ebs_settings = custom1, custom2

更新策略:如果更改此设置,则不允许更新。

ec2_iam_role

(可选)定义附加到集群中所有实例 EC2 的 Amazon 现有 IAM 角色的名称。IAM 角色名称与其 Amazon 资源名称 (ARN) 不同。 ARNs 不能用作论据ec2_iam_role

如果指定了此选项,则忽略 additional_iam_policies 设置。如果您打算在集群节点的默认设置中添加额外的策略,我们建议您使用 additional_iam_policies 设置传递其他自定义 IAM 策略,而不是使用 ec2_iam_role 设置。

如果未指定此选项,则使用亚马逊 EC2 的默认AWS ParallelCluster IAM 角色。有关更多信息,请参阅 AWS Identity and Access Management 中的角色 AWS ParallelCluster

没有默认值。

ec2_iam_role = ParallelClusterInstanceRole

更新策略:如果更改此设置,则不允许更新。

efs_settings

(可选)指定与 Amazon EFS 文件系统相关的设置。部分名称必须以字母开头,不能超过 30 个字符,并且只能包含字母、数字、连字符 (-) 和下划线 (_)。

有关更多信息,请参阅 [efs] 部分

例如,以下设置指定将以 [efs customfs] 开始的部分用于 Amazon EFS 文件系统配置。

efs_settings = customfs

更新策略:如果更改此设置,则不允许更新。

enable_efa

(可选)如果存在,则指定为计算节点启用 Elastic Fabric Adapter (EFA)。要查看支持 EFA 的 EC2 实例列表,请参阅 Amazon Linux 实例 EC2 用户指南中的支持的实例类型。有关更多信息,请参阅 Elastic Fabric Adapter。如果定义了 queue_settings 设置,则可以定义此设置,也可以定义 [queue] 部分中的 enable_efa 设置。应使用集群置放群组来最大限度地减少实例之间的延迟。有关更多信息,请参阅placementplacement_group

enable_efa = compute
注意

在 2.10.1 版本中,在基于 ARM 的 Graviton2 实例上增加了对 EFA 的支持。AWS ParallelCluster

更新策略:如果更改此设置,则不允许更新。

enable_efa_gdr

(可选)从 2.11.3 AWS ParallelCluster版本开始,此设置无效。如果实例类型和操作系统都支持 GPUDirect Elastic Fabric Adapter (EFA),则始终启用对 RDMA(远程直接内存访问)的支持。

注意

AWS ParallelCluster版本 2.10.0 到 2.11.2:如果compute,则指定计算节点启用弹性结构适配器 (EFA) 对 GPUDirect RDMA(远程直接内存访问)的支持。将此设置设置为 compute 需要先将 enable_efa 设置设为 compute。特定操作系统(是alinux2centos7、或 p4d.24xlargeubuntu2004)上的特定实例类型 () 支持对 GPUDirect RDMA base_os 的 EFA 支持。ubuntu1804如果定义了 queue_settings 设置,则可以定义此设置,也可以定义 [queue] 部分中的 enable_efa_gdr 设置。应使用集群置放群组来最大限度地减少实例之间的延迟。有关更多信息,请参阅placementplacement_group

enable_efa_gdr = compute
注意

在 2.10.0 AWS ParallelCluster版本中添加enable_efa_gdr了对 Support 的支持。

更新策略:必须停止计算实例集才能更改此设置以进行更新。

enable_intel_hpc_platform

(可选)如果存在,则表示接受 Intel Parallel Studio 的最终用户许可协议。这将导致 Intel Parallel Studio 安装在头节点上并与计算节点共享。这使头节点进行引导的时间增加了几分钟。仅 CentOS 7 (base_os = centos7) 上支持 enable_intel_hpc_platform 设置。

默认值为 false

enable_intel_hpc_platform = true
注意

该enable_intel_hpc_platform参数与基于AWS Graviton 的实例不兼容。

注意

在AWS ParallelCluster版本 2.5.0 中增加了对 enable_intel_hpc_platform 的支持。

更新策略:如果更改此设置,则不允许更新。

encrypted_ephemeral

(可选)使用 LUKS (Linux Unified Key Setup),通过无法恢复的内存中密钥对临时实例存储卷进行加密。

有关更多信息,请参阅 https://gitlab.com/cryptsetup/cryptsetup/blob/master/README.md

默认值为 false

encrypted_ephemeral = true

更新策略:如果更改此设置,则不允许更新。

ephemeral_dir

(可选)定义实例存储卷(如果使用)的挂载路径。

默认值为 /scratch

ephemeral_dir = /scratch

更新策略:如果更改此设置,则不允许更新。

extra_json

(可选)定义合并到 Chef dna.json 中的额外 JSON。有关更多信息,请参阅 构建自定义 AWS ParallelCluster AMI

默认值为 {}

extra_json = {}
注意

从AWS ParallelCluster版本 2.6.1 开始,启动节点时默认会跳过大多数安装配方,以缩短启动时间。要以牺牲启动时间为代价运行所有安装食谱以获得更好的向后兼容性,请将 "skip_install_recipes" : "no" 添加到 extra_json 设置中的 cluster 键。例如:

extra_json = { "cluster" : { "skip_install_recipes" : "no" } }

更新策略:必须停止计算实例集才能更改此设置以进行更新。

fsx_settings

(可选)指定定义 for Lustre 配置 FSx 的部分。部分名称必须以字母开头,不能超过 30 个字符,并且只能包含字母、数字、连字符 (-) 和下划线 (_)。

有关更多信息,请参阅 [fsx] 部分

例如,以下设置指定启动部分用[fsx fs]于 for Lustre 配置。 FSx

fsx_settings = fs

更新策略:如果更改此设置,则不允许更新。

iam_lambda_role

(可选)定义现有AWS Lambda执行角色的名称。此角色附加到集群中所有 Lambda 函数。有关更多信息,请参阅AWS Lambda开发人员指南 中的 AWS Lambda执行角色

注意

从 2.11.5 版开始,AWS ParallelCluster不支持使用SGE或Torque调度程序。

IAM 角色名称与其 Amazon 资源名称 (ARN) 不同。 ARNs 不能用作论据iam_lambda_role。如果同时定义了 ec2_iam_roleiam_lambda_role,并且 schedulersgeslurmtorque,则不会创建任何角色。如果 schedulerawsbatch,则在 pcluster start 期间将创建角色。有关示例策略,请参阅 使用 SGE、Slurm 或 Torque 的 ParallelClusterLambdaPolicy使用 awsbatch 的 ParallelClusterLambdaPolicy

没有默认值。

iam_lambda_role = ParallelClusterLambdaRole
注意

在 2.10.1 AWS ParallelCluster版本中增加了对 Support 的支持。iam_lambda_role

更新策略:可以在更新期间更改此设置。

initial_queue_size

(可选)设置在集群中作为计算节点启动的 Amazon EC2 实例的初始数量。如果定义了 queue_settings 设置,则必须在 [compute_resource] 部分中删除此设置并替换为 initial_count 设置。

注意

从 2.11.5 版开始,AWS ParallelCluster不支持使用SGE或Torque调度程序。

此设置仅适用于传统调度器(SGE、Slurm 和 Torque)。如果 maintain_initial_size 设置为 true,则 initial_queue_size 设置必须至少为一 (1)。

如果调度器是 awsbatch,请改用 min_vcpus

默认值为 2

initial_queue_size = 2

更新策略:可以在更新期间更改此设置。

key_name

(可选)命名现有 Amazon EC2 密钥对,用于启用 SSH 访问实例。

key_name = mykey
注意

在 2.11.0 AWS ParallelCluster版本之前,key_name是必需的设置。

更新策略:如果更改此设置,则不允许更新。

maintain_initial_size

注意

从 2.11.5 版开始,AWS ParallelCluster不支持使用SGE或Torque调度程序。

(可选)为传统的调度器(SGE、Slurm 和 Torque)保持自动扩缩组的初始大小。

如果调度器是 awsbatch,请改用 desired_vcpus

此设置是一个布尔标记。如果设置为 true,则自动扩缩组的成员数永远不会少于 initial_queue_size 的值,并且 initial_queue_size 的值必须为一 (1) 或更大。集群仍可以扩展到 max_queue_size 的值。如果为 cluster_type = spot,则自动扩缩组的实例可能会中断,并且大小可能降至 initial_queue_size 以下。

如果设置为 false,则自动扩缩组的成员数可以缩减为零 (0),以防止在不需要资源时闲置。

如果定义了 queue_settings 设置,则必须在 [compute_resource] 部分中删除此设置并替换为 initial_countmin_count 设置。

默认值为 false

maintain_initial_size = false

更新策略:可以在更新期间更改此设置。

master_instance_type

(可选)定义用于头节点的 Amazon EC2 实例类型。该实例类型的架构必须与用于 compute_instance_type 设置的架构相同。

如果有免费套餐,则默认为免费套餐实例类型(t2.microt3.micro)。AWS 区域其中AWS 区域没有免费套餐,默认为t3.micro。有关AWS免费套餐的更多信息,请参阅AWS免费套餐 FAQs

master_instance_type = t2.micro
注意

在 2.10.1 AWS ParallelCluster版本之前,全部默认为。t2.microAWS 区域在AWS ParallelCluster版本2.10.0 中,头节点不支持 p4d.24xlarge。2.8.0 版本中增加了对AWS基于 Graviton 的实例(例如A1C6g)的AWS ParallelCluster支持。

更新策略:如果更改此设置,则不允许更新。

master_root_volume_size

(可选)指定头节点根卷大小,以吉字节 (GiB) 为单位。AMI 必须支持 growroot

默认值为 35

注意

对于 2.5.0 和 2.10.4 之间的AWS ParallelCluster版本,默认值为 25。在 2.5.0 AWS ParallelCluster版本之前,默认值为 20。

master_root_volume_size = 35

更新策略:如果更改此设置,则不允许更新。

max_queue_size

(可选)设置可在集群中启动的 Amazon EC2 实例的最大数量。如果定义了 queue_settings 设置,则必须在 [compute_resource] 部分中删除此设置并替换为 max_count 设置。

注意

从 2.11.5 版开始,AWS ParallelCluster不支持使用SGE或Torque调度程序。

此设置仅适用于传统调度器(SGE、Slurm 和 Torque)。

如果调度器是 awsbatch,请改用 max_vcpus

默认值为 10

max_queue_size = 10

更新策略:可以在更新期间更改此设置,但如果该值降低,则应停止计算实例集。否则,现有节点可能会被终止。

max_vcpus

(可选)指定计算环境CPUs 中 v 的最大数量。仅在调度器为 awsbatch 时使用。

默认值为 20

max_vcpus = 20

更新策略:更新期间不能减小此设置。

min_vcpus

(可选)awsbatch 调度器保持自动扩缩组的初始大小。

注意

从 2.11.5 版开始,AWS ParallelCluster不支持使用SGE或Torque调度程序。

如果调度器是 SGE、Slurm 或 Torque,请改用 maintain_initial_size

计算环境中的成员数绝不会少于 min_vcpus 的值。

默认值为 0

min_vcpus = 0

更新策略:可以在更新期间更改此设置。

placement

(可选)定义集群置放群组逻辑,并使整个集群或仅计算实例能够使用集群置放群组。

如果定义了 queue_settings 设置,则对每个 [queue] 部分,应删除此设置并替换为 placement_group 设置。如果将同一个置放群组用于不同的实例类型,则请求更有可能因容量不足错误而失败。有关更多信息,请参阅 Amazon EC2 用户指南中的实例容量不足。只有事先创建了置放群组并在每个队列的 placement_group 设置中进行了配置,多个队列才能共享该置放群组。如果每个 [queue] 部分都定义了 placement_group 设置,则头节点不能位于队列的置放群组中。

有效选项是 clustercompute

当调度器为 awsbatch 时,不使用此参数。

默认值为 compute

placement = compute

更新策略:如果更改此设置,则不允许更新。

placement_group

(可选)定义集群置放群组。如果定义了 queue_settings 设置,则应在 [queue] 部分中删除此设置并替换为 placement_group 设置。

有效选项为以下值:

  • DYNAMIC

  • 现有的 Amazon EC2 集群置放群组名称

当设置为 DYNAMIC 时,将唯一置放群组作为集群堆栈的一部分进行创建和删除。

当调度器为 awsbatch 时,不使用此参数。

有关置放群组的更多信息,请参阅 Amazon EC2 用户指南中的置放群组。如果将同一个置放群组用于不同的实例类型,则请求更有可能因容量不足错误而失败。有关更多信息,请参阅 Amazon EC2 用户指南中的实例容量不足

没有默认值。

并非所有实例类型都支持集群置放群组。例如,t3.micro 的默认实例类型不支持集群置放群组。有关支持集群置放群组的实例类型列表的信息,请参阅 Amazon EC2 用户指南中的集群置放群组规则和限制。有关使用置放群组时的提示,请参阅置放群组和实例启动问题

placement_group = DYNAMIC

更新策略:如果更改此设置,则不允许更新。

post_install

(可选)指定在所有节点引导操作完成后运行的安装后脚本的 URL。有关更多信息,请参阅 自定义引导操作

当使用 awsbatch 作为调度器时,安装后脚本仅在头节点上运行。

参数格式可以是 http://hostname/path/to/script.shs3://bucket-name/path/to/script.sh

没有默认值。

post_install = s3://<bucket-name>/my-post-install-script.sh

更新策略:必须停止计算实例集才能更改此设置以进行更新。

post_install_args

(可选)指定要传递到安装后脚本的用双引号引起的参数列表。

没有默认值。

post_install_args = "argument-1 argument-2"

更新策略:必须停止计算实例集才能更改此设置以进行更新。

pre_install

(可选)指定在启动任何节点部署引导操作之前运行的预安装脚本的 URL。有关更多信息,请参阅 自定义引导操作

当使用 awsbatch 作为调度器时,预安装脚本仅在头节点上运行。

参数格式可以是 http://hostname/path/to/script.shs3://bucket-name/path/to/script.sh

没有默认值。

pre_install = s3://bucket-name/my-pre-install-script.sh

更新策略:必须停止计算实例集才能更改此设置以进行更新。

pre_install_args

(可选)指定要传递到预安装脚本的用双引号引起的参数列表。

没有默认值。

pre_install_args = "argument-3 argument-4"

更新策略:必须停止计算实例集才能更改此设置以进行更新。

proxy_server

(可选)定义 HTTP 或 HTTPS 代理服务器,通常为 http://x.x.x.x:8080

没有默认值。

proxy_server = http://10.11.12.13:8080

更新策略:如果更改此设置,则不允许更新。

queue_settings

(可选)指定集群使用队列而不是同构计算队列,以及使用哪些[queue]部分。列出的第一个 [queue] 部分是默认的调度器队列。queue 部分名称必须以小写字母开头,不能超过 30 个字符,并且只能包含小写字母、数字和连字符 (-)。

重要

仅在 scheduler 设置为 slurm 时支持 queue_settings。不得指定 cluster_typecompute_instance_typeinitial_queue_sizemaintain_initial_sizemax_queue_sizeplacementplacement_groupspot_price 设置。disable_hyperthreadingenable_efa 设置既可以在 [cluster] 部分中指定,也可以在 [queue] 部分中指定,但不能同时在这些部分中指定。

最多支持五 (5) 个 [queue] 部分

有关更多信息,请参阅 [queue] 部分

例如,以下设置指定使用以 [queue q1][queue q2] 开始的部分。

queue_settings = q1, q2
注意

在 2.9.0 AWS ParallelCluster版本中添加queue_settings了对 Support 的支持。

更新策略:必须停止计算实例集才能更改此设置以进行更新。

raid_settings

(可选)使用 Amazon EBS 卷 RAID 配置标识 [raid] 部分。部分名称必须以字母开头,不能超过 30 个字符,并且只能包含字母、数字、连字符 (-) 和下划线 (_)。

有关更多信息,请参阅 [raid] 部分

例如,以下设置指定将以 [raid rs] 开始的部分用于自动扩缩配置。

raid_settings = rs

更新策略:如果更改此设置,则不允许更新。

s3_read_resource

(可选)指定向AWS ParallelCluster节点授予只读访问权限的 Amazon S3 资源。

例如,arn:aws:s3:::my_corporate_bucket*提供对my_corporate_bucket存储桶和存储桶中对象的只读访问权限。

有关格式的详细信息,请参阅使用 Amazon S3

没有默认值。

s3_read_resource = arn:aws:s3:::my_corporate_bucket*

更新策略:可以在更新期间更改此设置。

s3_read_write_resource

(可选)指定向AWS ParallelCluster节点授予 read/write 访问权限的 Amazon S3 资源。

例如,arn:aws:s3:::my_corporate_bucket/Development/*提供对my_corporate_bucket存储桶Development文件夹中所有对象的 read/write 访问权限。

有关格式的详细信息,请参阅使用 Amazon S3

没有默认值。

s3_read_write_resource = arn:aws:s3:::my_corporate_bucket/*

更新策略:可以在更新期间更改此设置。

scaling_settings

使用自动扩缩配置标识 [scaling] 部分。部分名称必须以字母开头,不能超过 30 个字符,并且只能包含字母、数字、连字符 (-) 和下划线 (_)。

有关更多信息,请参阅 [scaling] 部分

例如,以下设置指定将以 [scaling custom] 开始的部分用于自动扩缩配置。

scaling_settings = custom

更新策略:如果更改此设置,则不允许更新。

scheduler

(必需)定义集群调度器。

有效选项为以下值:

awsbatch

AWS Batch

有关 awsbatch 调度器的更多信息,请参阅联网设置AWS Batch (awsbatch)

sge
注意

从 2.11.5 版开始,AWS ParallelCluster不支持使用SGE或Torque调度程序。

Son of Grid Engine (SGE)

slurm

Slurm Workload Manager (Slurm)

torque
注意

从 2.11.5 版开始,AWS ParallelCluster不支持使用SGE或Torque调度程序。

Torque Resource Manager (Torque)

注意

在 2.7.0 AWS ParallelCluster版本之前,该scheduler参数是可选的,默认值为。sge从 2.7.0 AWS ParallelCluster版开始,该scheduler参数为必填项。

scheduler = slurm

更新策略:如果更改此设置,则不允许更新。

shared_dir

(可选)定义共享 Amazon EBS 卷的挂载路径。

请勿将此选项与多个 Amazon EBS 卷一起使用。相反,在每个 [ebs] 部分下提供 shared_dir 值。

有关使用多个 Amazon EBS 卷的详细信息,请参阅 [ebs] 部分

默认值为 /shared

以下示例显示一个在 /myshared 上挂载的共享 Amazon EBS 卷。

shared_dir = myshared

更新策略:如果更改此设置,则不允许更新。

spot_bid_percentage

(可选)设置按需百分比,用于计算计划程序的最高竞价价格。 ComputeFleet awsbatch

如果未指定,则选择当前 Spot 市场价格,最高为按需价格。

spot_bid_percentage = 85

更新策略:可以在更新期间更改此设置。

spot_price

注意

从 2.11.5 版开始,AWS ParallelCluster不支持使用SGE或Torque调度程序。

(可选)为传统调度程序(SGESlurm、和Torque)设置最高竞价价格。 ComputeFleet 仅当 cluster_type 设置设为 spot 时使用。如果您不指定值,则按 Spot 价格进行收费,最高为按需价格。如果定义了 queue_settings 设置,则必须在 [compute_resource] 部分中删除此设置并替换为 spot_price 设置。

如果计划程序为 awsbatch,请改用 spot_bid_percentage

有关查找满足您需求的竞价型实例的帮助,请参阅竞价型实例顾问

spot_price = 1.50
注意

在AWS ParallelCluster版本 2.5.0 中,如果spot_price未指定cluster_type = spot但未指定,则实例启动 ComputeFleet 失败。此问题已在 2.5.1 AWS ParallelCluster版本中修复。

更新策略:可以在更新期间更改此设置。

tags

(可选)定义要使用的标签CloudFormation。

如果通过 --tags 指定了命令行标签,则它们将与配置标签合并。

命令行标签覆盖具有相同键的配置标签。

标签是 JSON 格式的。请勿在大括号外使用引号。

有关更多信息,请参阅 AWS CloudFormation用户指南 中的CloudFormation资源标签类型

tags = {"key" : "value", "key2" : "value2"}

更新策略:如果更改此设置,则不允许更新。

注意

更新策略不支持更改AWS ParallelCluster版本 2.8.0 到版本 2.9.1 的 tags 设置。

对于版本 2.10.0 到版本 2.11.7,列出的支持更改 tags 设置的更新策略不准确。不支持修改此设置时进行集群更新。

template_url

(可选)定义用于创建集群的AWS CloudFormation模板的路径。

更新使用最初用于创建堆栈的模板。

默认值为 https://aws_region_name-aws-parallelcluster.s3.amazonaws.com/templates/aws-parallelcluster-version.cfn.json

警告

这是一个高级参数。对此设置进行任何更改需自行承担风险。

template_url = https://us-east-1-aws-parallelcluster.s3.amazonaws.com/templates/aws-parallelcluster-2.11.9.cfn.json

更新策略:在更新期间不分析此设置。

vpc_settings

(必需)使用将在其中部署集群的 Amazon VPC 配置标识 [vpc] 部分。部分名称必须以字母开头,不能超过 30 个字符,并且只能包含字母、数字、连字符 (-) 和下划线 (_)。

有关更多信息,请参阅 [vpc] 部分

例如,以下设置指定将以 [vpc public] 开始的部分用于 Amazon VPC 配置。

vpc_settings = public

更新策略:如果更改此设置,则不允许更新。