수명 주기 스크립트 준비 및 업로드 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

수명 주기 스크립트 준비 및 업로드

필요한 리소스를 모두 생성한 후에는 SageMaker HyperPod 클러스터에 대한 수명 주기 스크립트를 설정해야 합니다. 이러한 수명 주기 스크립트는 기본 HyperPod Slurm 클러스터를 생성하는 데 사용할 수 있는 기본 구성을 제공합니다.

수명 주기 스크립트 준비

다음 단계를 따라 수명 주기 스크립트를 가져오세요.

  1. GitHub 리포지토리에서 lifecycle scripts를 머신으로 다운로드합니다.

  2. cp CLI 명령을 사용하여 기본 리소스 프로비저닝에서 생성한 Amazon S3 버킷에 수명 주기 스크립트를 업로드합니다.

    aws s3 cp --recursive LifeCycleScripts/base-config s3://${ROOT_BUCKET_NAME}/LifeCycleScripts/base-config

구성 파일 생성

다음 단계에 따라 구성 파일을 생성하고 수명 주기 스크립트를 저장하는 곳과 동일한 Amazon S3 버킷에 업로드합니다.

  1. 다음 구성이 포함된 provisioning_parameters.json이라는 구성 파일을 생성합니다. slurm_sns_arn은 선택 사항입니다. 제공되지 않으면 HyperPod는 Amazon SNS 알림을 설정하지 않습니다.

    cat <<EOF > /tmp/provisioning_parameters.json { "version": "1.0.0", "workload_manager": "slurm", "controller_group": "$CONTOLLER_IG_NAME", "login_group": "my-login-group", "worker_groups": [ { "instance_group_name": "$COMPUTE_IG_NAME", "partition_name": "dev" } ], "fsx_dns_name": "$SLURM_FSX_DNS_NAME", "fsx_mountname": "$SLURM_FSX_MOUNT_NAME", "slurm_configurations": { "slurm_database_secret_arn": "$SLURM_DB_SECRET_ARN", "slurm_database_endpoint": "$SLURM_DB_ENDPOINT_ADDRESS", "slurm_shared_directory": "/fsx", "slurm_database_user": "$DB_USER_NAME", "slurm_sns_arn": "$SLURM_SNS_FAILOVER_TOPIC_ARN" } } EOF
  2. 수명 주기 스크립트를 저장하는 곳과 동일한 Amazon S3 버킷에 provisioning_parameters.json 파일을 업로드합니다.

    aws s3 cp /tmp/provisioning_parameters.json s3://${ROOT_BUCKET_NAME}/LifeCycleScripts/base-config/provisioning_parameters.json

Amazon S3 버킷의 파일 확인

모든 수명 주기 스크립트와 provisioning_parameters.json 파일을 업로드하고 나면 Amazon S3 버킷은 다음과 유사해집니다.

Amazon Simple Storage Service 콘솔에서 Amazon S3 버킷에 업로드된 모든 수명 주기 스크립트를 보여주는 이미지입니다.

자세한 내용은 Start with base lifecycle scripts provided by HyperPod를 참조하세요.