查看环境变量参考 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

查看环境变量参考

为 SageMaker HyperPod Slurm 集群设置多个控制器节点教程中定义并使用以下环境变量。这些环境变量仅在当前会话中可用,除非将其显式保留。它们是使用 $variable_name 语法定义的。 key/value 成对的变量表示 AWS创建的资源,而没有键的变量是用户定义的。

环境变量参考
变量 说明
$BACKUP_SUBNET
  • 示例键:BackupPrivateSubnet

  • 示例值:subnet-04a8ab51748510a51

  • 描述:用于创建 HyperPod Slurm 集群的备份私有子网 ID。

$COMPUTE_IG_NAME
  • 示例值:compute-nodes

  • 描述:用于创建集群的计算实例组的名称。

$COMPUTE_NODE_ROLE
  • 示例键:AmazonSagemakerClusterExecutionRoleArn

  • 示例值:arn:aws:iam::111122223333:role/sagemaker-hyperpod-AmazonSagemakerClusterExecutionR-123OTacPcKk1

  • 描述:计算实例组的 IAM 角色的 Amazon 资源名称(ARN)。

$CONTOLLER_IG_NAME
  • 示例值:controller-machine

  • 描述:用于创建集群的控制器实例组的名称。

$DB_USER_NAME
$EMAIL
$PRIMARY_SUBNET
  • 示例键:PrimaryPrivateSubnet

  • 示例值:subnet-01a56ebc42df102a7

  • 描述:用于创建 HyperPod Slurm 集群的主私有子网 ID。

$POLICY
  • 示例值:arn:aws:iam::111122223333:policy/AmazonSagemakerExecutionPolicy

  • 描述:创建并附加到控制器实例组的 Slurm 执行角色的 IAM 策略 ARN。

$REGION
  • 示例值:us-east-1

  • 描述:您创建所有资源 AWS 区域 的位置。

$ROOT_BUCKET_NAME
  • 示例键:SecurityGroup

  • 示例值:sagemaker-lifecycle-ab214000

  • 描述:用于上传生命周期脚本的 Amazon S3 桶的名称。

$SECURITY_GROUP
$SLURM_DB_ENDPOINT_ADDRESS
  • 示例键:SlurmDBEndpointAddress

  • 示例值:sagemaker-hyperpod-mh-slurmdbinstance-sxcmatjv0ei0.clplgxt06ysb.us-east-1.rds.amazonaws.com

  • 描述:创建集群时使用的 Amazon RDS 数据库端点。

$SLURM_DB_SECRET_ARN
  • 示例键:SlurmDBSecretArn

  • 示例值:arn:aws:secretsmanager:us-east-1:111122223333:secret:sagemaker-hyperpod-mh-db-secret-us-east-1-dmz72K

  • 描述:创建集群时使用的数据库密钥 ARN。

$SLURM_EXECUTION_ROLE_ARN
  • 示例键:SlurmExecutionRoleArn

  • 示例值:arn:aws:iam::111122223333:role/sagemaker-hyperpod-mhSlurmExecutionRole-us-east-1

  • 描述:用于创建集群的控制器实例组的 IAM 角色 ARN。

$SLURM_FSX_DNS_NAME
$SLURM_FSX_MOUNT_NAME
$SLURM_SNS_FAILOVER_TOPIC_ARN
  • 示例键:SlurmFailOverSNSTopicArn

  • 示例值:arn:aws:sns:us-east-1:111122223333:sagemaker-hyperpod-mhSlurmFailOverTopic-us-east-1

  • 描述:创建配置文件中使用的 Amazon SNS 主题 ARN。