AWS ParallelCluster
變更 |
描述 |
日期 |
AWS ParallelCluster 3.13.2 版已發行
|
若要升級,請輸入下列項目:sudo pip install --upgrade aws-parallelcluster 。
錯誤修正:
|
2025 年 6 月 24 日
|
AWS ParallelCluster 3.13.1 版已發行
|
若要升級,請輸入下列項目:sudo pip install --upgrade aws-parallelcluster 。
變更:
-
升級 Slurm 至 24.05.8 版。
-
將 EFA 安裝程式升級至 1.41.0 (從 1.38.1 版)。
-
Efa-driver:efa-2.15.0-1
-
Efa-config:efa-config-1.18-1
-
Efa-profile:efa-profile-1.7-1
-
Libfabric-aws:libfabric-aws-2.1.0-1
-
Rdma-core:rdma-core-57.0-1
-
開啟 MPI:openmpi40-aws-4.1.7-2 和 openmpi50-aws-5.0.6
-
將非 Amazon Linux AMI 的 amazon-efs-utils 升級至 2.3.1 版 (從 v2.1.0)。
-
在 us-isob-east-1 和 us-iso-east-1 中支援 DCV。
-
在 us-isob-east-1 和 us-iso-east-1 中支援 FSX for Lustre 和 Ontap。
-
確保 ParallelCluster 映像建置的核心一致性,方法是在開始時鎖定,並在完成時取消鎖定。
錯誤修正:
|
2025 年 6 月 4 日
|
AWS ParallelCluster 3.13.0 版已發行
|
若要升級,請輸入下列項目:sudo pip install --upgrade aws-parallelcluster 。
棄用:
增強功能:
變更:
-
升級 Slurm 至 24.05.7 版。
-
將所有OSs的 NVIDIA 驅動程式升級至版本 570.86.15 (從 550.127.08),AL2 除外。
-
將 CUDA Toolkit 升級至 AL2 以外所有OSs 1AL2.8.0 版 (自 12.4.1 起)。
-
將 Python 升級至 3.12.8,適用於所有OSs但 AL2 除外 (自 3.9.20 起)。
-
在 Ubuntu 22.04 上,使用用於編譯核心的相同編譯器版本安裝 Nvidia 驅動程式。
-
aws-cfn-bootstrap 升級至 2.0-33 版。
-
升級 EFA 安裝程式到 1.38.0 (從 1.36.0)。
-
Efa-driver:efa-2.13.0-1
-
Efa-config:efa-config-1.17-1
-
Efa-profile:efa-profile-1.7-1
-
Libfabric-aws : libfabric-aws-1.22.0-1
-
Rdma-core:rdma-core-54.0-1
-
開啟 MPI: openmpi40-aws-4.1.7-1 和 openmpi50-aws-5.0.5
-
將 amazon-efs-utils 升級至 2.1.0 版。
-
移除第三方技術指南:apt-7.5.22 和 pyenv-4.2.3。
-
升級第三方技術指南相依性:
-
line-4.5.21 (從 line-4.5.13 起)
-
nfs-5.1.5 (來自 nfs-5.1.2)
-
openssh-2.11.14 (從 openssh-2.11.12 開始)
-
yum-7.4.20 (從 yum-7.4.13 起)
-
yum-epel-5.0.8 (來自 yum-epel-5.0.2)
-
將 Pmix 升級到 5.0.6 (從 5.0.3)。
-
將 ARM PL 升級到 24.10 版 (從 23.10 版)。
-
在 Lambda layer 和安裝程式中將 Python 升級到 3.12.8 版 (自 3.9.17 起)。
-
升級 NodeJS 至 Lambda layer 和安裝程式中的 20.18.3 版 (自 18.20.3 起)。
-
將登入節點的 DSA 金鑰產生移除為 DSA,這會在 OpenSSH 9.7+ 中變成不受支援。
-
在運算節點啟動時,在 Slurm 中設定執行個體 ID 和執行個體類型資訊。
-
安裝 NVIDIA 驅動程式時,沒有選項 'no-cc-version-check',現已在 NVIDIA 安裝程式中棄用。
-
新增驗證器以強制執行最多 10 個登入節點集區。
-
將預設根磁碟區大小更新為 45 GB。
錯誤修正:
-
移除用於運算節點引導的 cfn-init 用量,以減少節點擴展時間。
-
修正使用代理時導致運算節點引導失敗的問題。
-
在 Ubuntu 22.04 上,使用與編譯核心相同的編譯器版本來安裝 Nvidia 驅動程式,以防止安裝失敗。- 修正在更新期間僅在前端節點上覆寫 aws-parallelcluster-node 套件的執行。
-
修正在多使用者環境 (與 Active Directory 整合) 中透過 Pyxis/Enroot 執行的容器化任務會失敗的問題。
-
修正使用目錄服務時,在 Rocky 9.5+ 上造成節點引導失敗的 authselect 用量。
|
2025 年 4 月 1 日
|
AWS ParallelCluster 3.12.0 版已發行
|
若要升級,請輸入下列項目:sudo pip install --upgrade aws-parallelcluster 。
增強功能:
-
新增建置映像組態區段Build/Installation ,以開啟/關閉 NVIDIA 軟體和 Lustre 用戶端安裝。根據預設,雖然包含在官方 ParallelCluster AMIs 中,但 不會安裝 NVIDIA 軟體build-image 。預設會安裝 Lustre 用戶端。
-
CLI 命令 export-cluster-logs 和 export-image-logs 現在可以根據預設將日誌匯出至預設的 ParallelCluster 儲存貯體,或在組態中指定時匯出至 CustomS3Bucket。
-
在 ARM 執行個體上將 Amazon DCV 支援擴展至 Ubuntu2204。
變更:
-
將 NVIDIA 驅動程式升級至 550.127.08 版 (從 550.90.07)。這可解決 NVIDIA 的已知問題。如需詳細資訊,請參閱 NVIDIA 資料中心文件中的已知問題。
-
將 Amazon DCV 升級到版本 2024.0-18131 。
-
將 EFA 安裝程式升級至 1.36.0 。
-
Efa-driver: efa-2.13.0-1
-
Efa-config: efa-config-1.17-1
-
Efa 設定檔: efa-profile-1.7-1
-
Libfabric-aws: libfabric-aws-1.22.0-1
-
Rdma 核心: rdma-core-54.0-1
-
開啟 MPI: openmpi40-aws-4.1.7-1 和 openmpi50-aws-5.0.5
-
失敗時自動重新啟動 slurmctld。
-
將 mysql-community-client 升級到 8.0.39 版。
-
移除對 Python 3.7 和 3.8 的支援,這是生命週期結束。
錯誤修正:
-
修正叢集更新期間未偵測到自訂動作指令碼序列變更的問題。
-
新增 AWS ParallelCluster API 缺少的許可,為部署登入節點所需的 Elastic Load Balancing 和 Auto Scaling 建立服務連結角色。
-
修正在管理磁碟區時,我們取得區域的方式問題,讓它可以正確處理本機區域。
-
修正在更新AccessPointIds 期間使用 新增 EFS 檔案系統失敗的問題。
-
修正使用 PCAPI 時,叢集更新可能會在更新非 類型的參數時失敗的問題 String (例如,MaxCount )。
-
掛載外部 OpenZFS 時,不再需要設定連接埠 111、2049、20001、20002、20003 的傳出規則。
|
2024 年 12 月 19 日
|
AWS ParallelCluster 3.11.1 版已發行
|
功能:
-
依預設,Pyxis 現在已停用,因此必須如產品文件中所述手動啟用。
-
在 ParallelCluster Lambda Layer 中將 Python 執行時間升級至 3.12 版。
-
將 setuptools 的版本鎖定移除至 70.0.0 之前的版本。
-
將 libjwt 升級至 1.17.0 版。
完整變更日誌
錯誤修正
|
2024 年 10 月 21 日
|
AWS ParallelCluster 3.11.0 版已發行
|
增強功能
變更
【中斷】 API DescribeCluster 和 CLI 命令傳回loginNodes 的欄位describe-cluster 已從字典變更為陣列,以支援多個登入節點集區。此變更會破壞回溯相容性,使這些操作與使用舊版部署的叢集不相容。
升級 Slurm 至 23.11.10 (從 23.11.7)。 將 Pmix 升級到 5.0.3 (從 5.0.2)。 將 EFA 安裝程式升級至 1.34.0 。
Efa-driver: efa-2.10.0-1 Efa-config: efa-config-1.17-1 Efa 設定檔: efa-profile-1.7-1 Libfabric-aws: libfabric-aws-1.22.0-1 Rdma 核心: rdma-core-52.0-1 開啟 MPI: openmpi40-aws-4.1.6-3 和 openmpi50-aws-5.0.3-11
將 NVIDIA 驅動程式升級至版本 550.90.07 (從 535.183.01)。 將 CUDA Toolkit 升級到 12.4.1 版 (從 12.2.2)。 將 Python 升級到 3.9.20 (從 3.9.19)。 將 Intel MPI Library 升級至 2021.13.1.769 (自 2021.12.1.8 起)。
錯誤修正
修正驗證器,EfaPlacementGroupValidator 使其不建議在使用容量區塊時設定置放群組。 透過確保 FSx for Lustre 檔案系統是在安全群組規則之後建立,來修正偶爾的叢集建立失敗。 修正啟用置放群組時的叢集刪除失敗。 修正限制 SSH 存取時,登入節點標示為運作狀態不良的問題。 修正 ,retrieve_supported_regions 使其可以取得正確的 S3 URL。 修正describe_images 以使用分頁。 修正將預設 VPC 子網路指定至 LoginNodes/Networking/SubnetIds 時的No route tables found 錯誤。
|
2024 年 9 月 26 日
|
AWS ParallelCluster 3.10.1 版已發行
|
錯誤修正
|
2024 年 7 月 8 日
|
AWS ParallelCluster 3.10.0 版已發行
|
增強功能:
-
新增組態區段Scheduling/SlurmSettings/ExternalSlurmdbd ,將叢集連線至外部 Slurmdbd。
-
允許在隔離的網路中執行建置映像。
-
新增對 Amazon Linux 2023 的支援。
-
將 的支援price-capacity-optimized 新增為 AllocationStrategy 。
-
新增驗證器以防止將置放群組與容量區塊搭配使用。
變更:
-
不再支援 CentOS 7。
-
從 18.4.12 將 Cinc 用戶端升級至 18.2.7 版。
-
將 munge 升級到 0.5.16 版 (從 0.5.15 版)。
-
將 Pmix 升級到 5.0.2 (從 4.2.9)。
-
升級第三方技術指南相依性:
-
移除第三方技術指南:selinux-6.1.12。
-
將 EFA 安裝程式升級至 1.32.0 。
-
Efa-driver: efa-2.8.0-1
-
Efa-config: efa-config-1.16-1
-
Efa-profile: efa-profile-1.7-1
-
Libfabric-aws: libfabric-aws-1.21.0-1
-
Rdma 核心: rdma-core-50.0-1
-
開啟 MPI: openmpi40-aws-4.1.6-3 和 openmpi50-aws-5.0.2-12
-
將 NVIDIA 驅動程式升級至 535.183.01 版 (從 535.154.05)。
-
將 Python 升級到 3.9.19 (從 3.9.17)。
-
將 Intel MPI Library 升級至 2021.12.1.8 (從 2021.9.0.43482)。
錯誤修正:
-
修正要設為 AutoExportPolicy 和AutoImportPolicy 選用的資料儲存庫關聯組態。
-
修正叢集刪除期間的問題,該問題現在會在執行個體處於關機或終止狀態時完成運算機群清除。這是為了避免具有較長終止週期之執行個體類型的叢集刪除失敗。
-
允許啟用 cloudwatch 儀表板,並在叢集組態的 Monitoring 區段中停用警示。
-
允許 ParallelCluster 自訂資源使用 抑制驗證程式PclusterCluster/SuppressValidators 。
-
移除 ,/etc/profile.d/pcluster.sh 使其不會在每次使用者登入時執行cfn_bootstrap_virtualenv ,也不會在 PATH 環境變數中新增。
-
將回應failures 中的欄位取代failureReason 為 ,以修正 ParallelCluster API 規格DescribeCluster 。
-
透過新增缺少的 CloudFormation 堆疊狀態來修正 ParallelCluster API 規格:IMPORT_* 、 REVIEW_IN_PROGRESS 和 UPDATE_FAILED 。
-
修正無法讓叢集更新包含傳輸中加密的 EFS 檔案系統的問題。
-
修正在 EFS 用於共用內部資料時,導致 slurmctld 和 slurmdbd 服務無法在前端節點重新啟動時重新啟動的問題。
-
在 Ubuntu 系統上,移除與來自 ParallelCluster 的組態衝突之 cloud-init 日誌檔案的預設 logrotate 組態。
-
使用 RHEL 8.10 或更新版本修正映像建置失敗。
|
2024 年 6 月 27 日
|
AWS ParallelCluster 3.9.3 版已發行
|
若要升級,請輸入 sudo pip install --upgrade aws-parallelcluster
功能:
錯誤修正:
|
2024 年 6 月 19 日
|
AWS ParallelCluster 3.9.2 版已發行
|
功能:
|
2024 年 5 月 28 日
|
AWS ParallelCluster 3.9.1 版已發行
|
若要升級,請輸入下列項目: sudo pip install --upgrade aws-parallelcluster
錯誤修正
|
2024 年 4 月 11 日
|
AWS ParallelCluster 3.9.0 版已發行
|
若要升級,請輸入下列項目: sudo pip install --upgrade aws-parallelcluster
增強功能:
-
新增組態參數DeploymentSettings/DefaultUserHome ,以允許使用者將預設使用者的主目錄移至 ,/local/home 而不是 /home (預設)。
-
允許更新 MinCount 、 MaxCount Queue 和 ComputeResource 組態參數,而不需要停止運算機群。現在可以透過將 Scheduling/SlurmSettings/QueueUpdateStrategy 設定為 TERMINATE 來更新它們。 只會 AWS ParallelCluster 終止透過叢集更新執行的叢集容量調整大小期間移除的節點。
-
允許更新 Efs、FsxLustre、FsxOntap、FsxOpenZfs 和 FileCache 類型的外部共用儲存體,而無需取代運算和登入機群。
-
新增對 RHEL9 的支援。
-
新增透過 build-image 程序CustomAmi 建立的 Rocky Linux 9 支援。目前不提供公有 official AWS ParallelCluster Rocky9 Linux AMI。
-
CommunicationParameters 從自訂 Slurm Settings 拒絕清單中移除 。
-
新增 DeploymentSettings/DisableSudoAccessForDefaultUser 參數,以在支援的OSes中停用預設使用者的 sudo 存取。
-
ParallelCluster 建立的 FSx for Lustre 檔案系統變更:將 Lustre 伺服器版本變更為 2.15.
-
透過['cluster']['nvidia']['kernel_open'] 技術指南節點屬性,在建置 AMI 時,在開啟和關閉來源 Nvidia 驅動程式之間新增選擇的可能性。
-
* 新增 clustermgtd 組態選項ec2_instance_missing_max_count ,以允許最終 Amazon EC2 的可設定重試次數描述執行個體與執行執行個體的一致性。
變更
-
升級 Slurm 至 23.11.4 (從 23.02.7)。
-
將 NVIDIA 驅動程式升級至 535.154.05 版。
-
在 pcluster CLI 和 aws-parallelcluster-batch-cli 中新增對 Python 3.11、3.12 的支援。
-
使用 Amazon EC2 DescribeInstances 回應NetworkCardIndex 清單中的網路卡索引建置網路介面,而不是循環超過MaximumNetworkCards 範圍。
-
使用執行個體類型 P3, G3, P2 和 G2 時,叢集建立失敗,因為其 GPU 架構與 3.8.0 版推出的開放原始碼 Nvidia 驅動程式 (OpenRM) 不相容。
-
升級第三方技術指南相依性:nfs-5.1.2 (從 nfs-5.0.0)
-
升級 EFA 安裝程式至 1.30.0.
-
Efa-driver: efa-2.6.0-1
-
Efa-config: efa-config-1.15-1
-
Efa-profile: efa-profile-1.6-1
-
Libfabric-aws: libfabric-aws-1.19.0
-
Rdma 核心: rdma-core-46.0-1
-
開啟 MPI: openmpi40-aws-4.1.6-2 和 openmpi50-aws-5.0.0-11
-
將 NICE DCV 升級到 版本 2023.1-16388.
錯誤修正
-
修正從登入節點以 Active Directory 使用者身分提交時任務失敗的問題。此問題是由與前端節點上的外部 Active Directory 整合的不完整組態所造成。
-
重構 CloudFormation 範本 parallelclutser-policies.yaml 中定義的 IAM 政策,以防止超過 IAM 限制的政策導致 ParallelCluster API 部署失敗。
-
修正當前端節點寫入金鑰所需的時間超過預期時,導致登入節點無法引導的問題。
如需變更的詳細資訊,請參閱 GitHub 上 aws-parallelcluster-ui 套件CHANGELOG 的檔案。
|
2024 年 3 月 5 日
|
AWS ParallelCluster 3.8.0 版已發行
|
AWS ParallelCluster 3.8.0 版已發行。
增強功能:
-
新增 ML 的 Amazon EC2 容量區塊支援。
-
新增透過 build-image 程序CustomAmi 建立的 Rocky Linux 8 支援。目前不提供公有 official AWS ParallelCluster Rocky8 Linux AMI。
-
新增 Scheduling/ScalingStrategy 參數以控制啟動 Slurm 運算節點的 Amazon EC2 執行個體時要使用的叢集擴展策略。可能的值為 all-or-nothing 、greedy-all-or-nothing 、best-effort ,預設值all-or-nothing 為 。
-
新增HeadNode/SharedStorageType 參數以使用 EFS 儲存體,而不是從叢集內共用檔案系統資源的前端節點根磁碟區匯出 NFS:ParallelCluster、Intel、Slurm 和/home 資料。此增強功能可減少前端節點聯網的負載。
-
允許 透過 組態檔案的 SharedStorage 區段,將 掛/home 載為 EFS 或 FSx 外部共用儲存體。
-
新增參數SlurmSettings/MungeKeySecretArn 以允許 從 AWS Secrets Manager 使用外部使用者定義的 MUNGE 金鑰。
-
新增 Monitoring/Alarms/Enabled 參數以切換叢集的 Amazon CloudWatch 警示。
-
新增前端節點警示以監控 Amazon EC2 運作狀態檢查、CPU 使用率和前端節點的整體狀態,並將其新增至使用叢集建立的 CloudWatch Dashboard。
-
使用 DeploymentType PERSISTENT_2 做為受管 FSx for Lustre 時,新增對資料儲存庫關聯的支援。
-
新增 Scheduling/SlurmSettings/Database/DatabaseName 參數,以允許使用者為資料庫伺服器上要用於 Slurm 會計的資料庫指定自訂名稱。
-
在運算資源CapacityReservationTarget/CapacityReservationId 中設定 時InstanceType ,請建立選用的組態參數。
-
新增為 AWS ParallelCluster API 建立的 IAM 角色和政策指定字首的可能性。
-
新增可能以指定要套用至 AWS ParallelCluster API 建立之 IAM 角色和政策的許可界限。
變更
-
升級 Slurm 至 23.02.7 (從 23.02.6)。
-
將 NVIDIA 驅動程式升級至 535.129.03 版。
-
將 CUDA Toolkit 升級到 12.2.2 版。
-
使用開放原始碼 NVIDIA GPU 驅動程式 (OpenRM) 做為 Linux 的 NVIDIA 核心模組,而非 NVIDIA 封閉式來源模組。
-
移除 Slurm 恢復程式中all_or_nothing_batch 組態參數的支援,以支持新的Scheduling/ScalingStrategy 叢集組態。
-
將叢集警示命名慣例變更為 '【cluster-name】-【component-name】-【metric】'。
-
針對根磁碟區和其他磁碟區,將 ADC 區域中的預設 EBS 磁碟區類型從 gp2 變更為 gp3。
-
AWS ParallelCluster API 的選用許可界限現在會套用至 API 基礎設施建立的每個 IAM 角色。
-
將 EFA 安裝程式升級至 1.29.1 。
-
Efa-driver: efa-2.6.0-1
-
Efa-config: efa-config-1.15-1
-
Efa-profile: efa-profile-1.5-1
-
Libfabric-aws: libfabric-aws-1.19.0-1
-
Rdma 核心: rdma-core-46.0-1
-
開啟 MPI: openmpi40-aws-4.1.6-1
-
在所有支援的OSes中將 GDRCopy 升級至 2.4 版,但使用 2.3.1 版的 Centos 7 除外。
-
aws-cfn-bootstrap 升級至 2.0-28 版。
-
在 aws-parallelcluster-batch-cli 中新增對 Python 3.10 的支援。
錯誤修正
-
修正在修改運算資源中宣告的執行個體類型清單時,叢集更新復原之後的不一致擴展組態。
-
修正透過叢集組態檔案在與外部 LDAP 伺服器整合的叢集中切換使用者時產生 SSH 金鑰的問題。
-
修正設定 時停用 Slurm 省電模式的問題ScaledownIdletime = -1 。
-
修正 Slurm 會計update_slurm_database_password.sh 指令碼中 Slurm 安裝 dir 的硬式編碼路徑。
|
2023 年 12 月 19 日
|
AWS ParallelCluster 3.7.2 版已發行
|
AWS ParallelCluster 3.7.2 版已發行。
變更:
|
2023 年 10 月 25 日
|
AWS ParallelCluster 3.7.1 版已發行
|
AWS ParallelCluster 3.7.1 版已發行。
變更:
|
2023 年 9 月 22 日
|
AWS ParallelCluster 3.7.0 版已發行
|
AWS ParallelCluster 3.7.0 版已發行。
增強功能:
-
使用組態 YAML 檔案支援運算資源中靜態和動態節點優先順序的 AWS ParallelCluster 組態。
-
新增對 Ubuntu 22 的支援。預設不支援 RSA 金鑰。
-
新增佇列組態設定JobExclusiveAllocation ,以在任何指定時間將分割區中的節點專門配置給單一任務。
-
允許在叢集建立和叢集更新時間覆寫aws-parallelcluster-node 套件。對於前端節點,這適用於叢集更新。僅適用於開發用途。
-
避免 NFS 伺服器在運算節點上啟動。
-
新增對登入節點的支援。
-
為 Slurm Compute Resource 指定多個執行個體類型時,允許記憶體型排程。
-
新增支援,將現有的 Amazon File Cache 掛載為共用儲存。
變更:
-
根據預設,指派 Slurm 動態節點的優先順序 (權重) 為 1000。透過這樣做,Slurm 可以優先考慮閒置靜態節點而非閒置動態節點。
-
讓aws-parallelcluster-node 協助程式只處理 AWS ParallelCluster 受管 Slurm 分割區。
-
將EFS-utils 監視程式輪詢間隔增加到 10 秒。此變更適用於 EncryptionInTransit 設為 時true ,這是導致監視程式執行的唯一條件。
-
將 EFA 安裝程式升級至 1.25.1 。
-
Efa-driver: efa-2.5.0-1 (來自 efa-2.1.1g )
-
Efa-config: efa-config-1.15-1 (來自 efa-config-1.13-1 )
-
Efa-profile:efa-profile-1.5-1 (無變更)
-
Libfabric-aws: libfabric-aws-1.18.1-0 (來自 libfabric-aws-1.17.1-1 )
-
Rdma-core: rdma-core-46.0-1 (來自 rdma-core-43.0-1 )
-
開啟 MPI: openmpi40-aws-4.1.5-4 (來自 openmpi40-aws-4.1.5-1 )
-
升級 Slurm 至 23.02.4 版。
-
將 Imds/ImdsSupport 的預設值從 v1.0 變更為 v2.0。
-
棄用 Ubuntu 18。
-
將預設根磁碟區大小更新為 40 GB,以說明 Centos 7 的限制。
-
限制前端節點內檔案 /tmp/wait_condition_handle.txt 的許可,以便只有根才能讀取。
-
建立節點套件常駐程式要使用的 Slurm 分割區節點清單映射 JSON 檔案,以辨識 PC 管理的 Slurm 分割區和節點清單。
-
將 NVIDIA 驅動程式升級至 535.54.03 版。
-
將 CUDA 程式庫升級至 12.2.0 版。
-
將 NVIDIA Fabric Manager 升級到 nvidia-fabricmanager-535。
-
僅將 ARM PL 升級至 Ubuntu 22.04 的 23.04.1 版。
-
將 NICE DCV 升級到版本 2023.0-15487 。
錯誤修正:
-
將驗證新增至ScaledownIdletime 值,以防止將值設定為低於 -1。
-
在啟用 DCV 的 GPU 執行個體上,使用 Ubuntu Deep Learning AMI 修正叢集建立失敗。
-
修正使用 CustomLambdaRole 建立 ParallelCluster CloudFormation 自訂資源提供者時,導致建立懸置 IAM 政策的問題。
-
修正使用 SlurmSettings/Dns/UseEc2Hostnames 等於 時,在具有多個網路介面的執行個體上造成運算節點 DNS 名稱不一致的問題 True
如需變更的詳細資訊,請參閱 GitHub 上 aws-parallelcluster、aws-parallelcluster-cookbook 和 aws-parallelcluster-node 套件CHANGELOG 的檔案。
|
2023 年 8 月 30 日
|
僅限文件版本
|
AWS ParallelCluster 已發佈第 3 版的特定使用者指南。
僅限文件版本:
|
2023 年 7 月 17 日
|
AWS ParallelCluster 3.6.1 版已發行
|
AWS ParallelCluster 3.6.1 版已發行。
變更:
錯誤修正:
-
移除根磁碟區裝置名稱 (/dev/sda1 和 /dev/xvda ) 的硬式編碼,並從 期間使用的 AMIs 中擷取create-cluster 。
-
修正使用 CloudFormation 自訂資源並將 ElasticIp 設定為 時的叢集建立失敗True 。
-
修正叢集在搭配大型組態檔案使用 a AWS CloudFormation 自訂資源時建立和更新失敗的問題。
-
修正無法在 Ubuntu 上停用ptrace 保護,且不允許 libfabric 中跨記憶體連接 (CMA) 的問題。
-
修正使用多種執行個體類型時,容量快速不足的容錯移轉邏輯,且不會傳回任何執行個體。
如需變更的詳細資訊,請參閱 GitHub 上 aws-parallelcluster、aws-parallelcluster-cookbook 和 aws-parallelcluster-node 套件CHANGELOG 的檔案。
|
2023 年 7 月 5 日
|
AWS ParallelCluster 3.6.0 版已發行
|
AWS ParallelCluster 3.6.0 版已發行。
文件:
增強功能:
-
新增對 RHEL8 的支援。
-
新增 AWS CloudFormation 自訂資源,以使用 CloudFormation 建立和管理叢集。
-
新增在組態 YAML 檔案中自訂叢集 Slurm AWS ParallelCluster 組態的支援。
-
建置支援 LUA 的 Slurm。
-
將每個叢集的佇列數量上限從 10 個增加到 50 個。每個佇列最多可有 50 個運算資源。每個叢集最多可有 50 個運算資源。
-
新增針對在 OnNodeStart 、 OnNodeConfigured 和 OnNodeUpdated 參數中設定的事件指定多個自訂動作指令碼序列的支援。
-
新增組態區段 HealthChecks / Gpu ,用於在執行任務之前在運算節點上套用 GPU 運作狀態檢查。
-
在 SlurmQueues 和 / SlurmQueues ComputeResources 組態Tags 中新增對 的支援。
-
在Monitoring 組態中新增對 DetailedMonitoring 的支援。
-
在 CloudWatch 儀表板中 AWS ParallelCluster 新增前端節點記憶體和根磁碟區磁碟使用率追蹤的 mem_used_percent 和 disk_used_percent 指標,並設定警示以監控這些指標。
-
新增 AWS ParallelCluster 受管日誌的日誌輪換支援。
-
在 CloudWatch Dashboard 中追蹤常見的運算節點錯誤和動態節點最長閒置時間。
-
建立 SSL Socket 時,強制 DCV Authenticator Server 至少使用TLS-1.2 通訊協定。
-
在所有支援的作業系統上安裝 NVIDIA Data Center GPU Manager (DCGM) 套件,但 aarch64 centos7 和 除外alinux2 。
-
根據預設,載入核心模組 nvidia-uvm,以提供統一虛擬記憶體 (UVM) 功能給 CUDA 驅動程式。
-
安裝 NVIDIA 持續性協助程式做為系統服務。
變更:
-
升級 Slurm 至版本 23.02.2 (從版本 22.05.8 )。
-
將 munge 升級到版本 0.5.15 (從版本 0.5.14 )。
-
將 Slurm TreeWidth 設定為 30。
-
將 Slurm prolog 和epilog 組態/opt/slurm/etc/scripts/epilog.d/ 分別設定為目標目錄 /opt/slurm/etc/scripts/prolog.d/ 和 。
-
在運算節點註冊期間,將Prolog 執行指令碼的 Slurm BatchStartTimeout 設定為 3 分鐘上限。
-
將 CloudWatch 日誌RetentionInDays 的預設值從 14 天增加到 180 天。
-
將 EFA 安裝程式升級至 1.22.1 。
-
Dkms: 2.8.3-2
-
Efa-driver:efa-2.1.1g (無變更)
-
Efa-config:efa-config-1.13-1 (無變更)
-
Efa-profile:efa-profile-1.5-1 (無變更)
-
Libfabric-aws: libfabric-aws-1.17.1-1 (來自 libfabric-aws-1.17.0-1 )
-
Rdma-core:rdma-core-43.0-1 (無變更)
-
開啟 MPI:openmpi40-aws-4.1.5-1 (無變更)
-
在 Amazon Linux 2 2.12 上將 Lustre 用戶端版本升級至 。Lustre 用戶端2.12 已安裝在 Ubuntu 20.04、18.04 和 CentOS >= 7.7 上。
-
在 CentOS 72.10.8 .6 上將 Lustre 用戶端版本升級至 。
-
將 NVIDIA 驅動程式升級至版本 470.182.03 (從版本 )470.141.03 。
-
將 NVIDIA Fabric Manager 升級到版本 470.182.03 (從版本 )470.141.03 。
-
將 NVIDIA CUDA Toolkit 升級到版本 11.8.0 (從版本 )11.7.1 。
-
將 NVIDIA CUDA 範例升級至版本 11.8.0 。
-
將 Intel MPI 程式庫升級至版本 2021 Update 9 (自版本 2021 Update 6 起)。如需詳細資訊,請參閱 Intel® MPI Library 2021 Update 9。
-
將 NICE DCV 升級到版本 2023.0-15022 (從版本 2022.2-14521 )。
-
伺服器: 2023.0.15022-1 (從版本 )2022.2-14521-1 。
-
xdcv: 2023.0.547-1 (從 版本)2022.2.519-1 。
-
gl: 2023.0.1027-1 (從版本 )2022.2.1012-1 。
-
web_viewer: 2023.0.15022-1 (從版本 開始2022.2.14521-1 )。
-
aws-cfn-bootstrap 升級至版本 2.0-24 。
-
建置 AWS 批次叢集的容器映像時,CodeBuild 環境使用的升級映像:
-
aws/codebuild/amazonlinux2-x86_64-standard:4.0 (來自 aws/codebuild/amazonlinux2-x86_64-standard:3.0 )。
-
aws/codebuild/amazonlinux2-aarch64-standard:2.0 (來自 aws/codebuild/amazonlinux2-aarch64-standard:1.0 )。
錯誤修正:
-
修正 Amazon EFS 和 Amazon FSx 網路安全群組驗證器,以避免報告錯誤。
-
修正 Image Builder 在build-image 操作期間所建立資源的遺失標記。
-
修正 的更新政策MaxCount ,以一律在 MaxCount 屬性上執行數值比較。
-
使用多個網路卡修正運算節點執行個體上的 IP 對齊。
-
在執行佇列參數更新且未更新 Slurm 會計組態slurm_parallelcluster_slurmdbd.conf 時,修正 StoragePass 中 的替換。
-
修正使用現有 EFS 檔案系統建立叢集時,導致建立懸置安全群組的問題。
-
修正重新啟動時導致cfn-hup 協助程式失敗的問題。
-
將具有INVALID_REG 旗標的動態節點視為 Slurm 保護模式的引導失敗。未通過 Slurm 註冊的靜態節點在 之後已視為引導失敗node_replacement_timeout 。
如需變更的詳細資訊,請參閱 GitHub 上的 aws-parallelcluster、aws-parallelcluster-cookbook 和 aws-parallelcluster-node 套件CHANGELOG 的檔案。
|
2023 年 5 月 22 日
|
AWS ParallelCluster 3.5.1 版已發行
|
AWS ParallelCluster 3.5.1 版已發行。
增強功能:
變更:
錯誤修正:
如需變更的詳細資訊,請參閱 GitHub 上 aws-parallelcluster、aws-parallelcluster-cookbook 和 aws-parallelcluster-node 套件CHANGELOG 的檔案。
|
2023 年 3 月 29 日
|
AWS ParallelCluster 3.5.0 版已發行
|
AWS ParallelCluster 3.5.0 版已發行。
增強功能:
-
使用 AWS ParallelCluster UI 存取和管理叢集。
-
在 CloudFormation 範本中新增版本控制 AWS ParallelCluster 政策,供您在工作負載中參考。
-
新增 Python AWS ParallelCluster 程式庫,以搭配您自己的程式碼使用。
-
在運算節點引導失敗時,將運算節點主控台輸出的記錄新增至 Amazon CloudWatch。
-
新增失敗欄位,其中包含當叢集建立失敗時要describe-cluster 輸出的失敗代碼和原因。
-
新增驗證程式,以防止在呼叫子程序模組時插入惡意字串。
-
佈建靜態節點PROTECTED 時,如果叢集狀態變更為 ,則建立叢集失敗。
變更:
錯誤修正:
-
修正叢集資料庫建立,方法是在啟用 Slurm 會計時,驗證叢集名稱不超過 40 個字元。
-
修正 中clustermgtd 導致運算節點在 Amazon EC2 執行個體狀態檢查失敗時透過 Slurm 重新啟動的問題。
-
修正因為前端節點上的 IAM 政策不正確,導致其他帳戶共用容量保留無法啟動的運算節點問題。
如需變更的詳細資訊,請參閱 GitHub 上 aws-parallelcluster、aws-parallelcluster-cookbook、aws-parallelcluster-node 和 aws-parallelcluster-ui 套件CHANGELOG 的檔案。
|
2023 年 2 月 20 日
|
AWS ParallelCluster 3.4.1 版已發行
|
AWS ParallelCluster 3.4.1 版已發行。
錯誤修正:
如需變更的詳細資訊,請參閱 GitHub 上 aws-parallelcluster、aws-parallelcluster-cookbook 和 aws-parallelcluster-node 套件CHANGELOG 的檔案。
|
2023 年 1 月 13 日
|
AWS ParallelCluster 3.4.0 版已發行
|
AWS ParallelCluster 3.4.0 版已發行。
增強功能:
變更:
-
移除為現有檔案系統建立 Amazon EFS 掛載目標。
-
使用 掛載 EFS 檔案系統amazon-efs-utils 。EFS 檔案系統可以使用傳輸中加密和 IAM 授權使用者進行掛載。
-
在 CentOS7 和 Ubuntu 上安裝 stunnel 5.67,以支援 EFS 傳輸中加密。
-
將 EFA 安裝程式升級至 1.20.0 (從 1.18.0 )。
-
Efa-driver: efa-2.1 (來自 efa-1.16.0-1 )
-
Efa-config:efa-config-1.11-1 (無變更)
-
Efa-profile:efa-profile-1.5-1 (無變更)
-
Libfabric-aws: libfabric-aws-1.16.1 (來自 libfabric-aws-1.16.0~amzn4.0-1 )
-
Rdma-core:rdma-core-43.0-2 來自 (rdma-core-41.0-2 )
-
開啟 MPI:openmpi40-aws-4.1.4-3 來自 (openmpi40-aws-4.1.4-2 )
-
升級 Slurm 至版本 22.05.7 (從 22.05.5 )。
-
將 Python 升級至 3.9.16 和 3.7.16 。 (從 3.9.15 和 3.7.13 )。
-
使用 Slurm 時22.05.7 ,處於 IDLE+CLOUD+COMPLETING+POWER_DOWN+NOT_RESPONDING 狀態的動態節點不會被視為運作狀態不佳。
如需變更的詳細資訊,請參閱 GitHub 上 aws-parallelcluster、aws-parallelcluster-cookbook 和 aws-parallelcluster-node 套件CHANGELOG 的檔案。
|
2022 年 12 月 22 日
|
AWS ParallelCluster 3.3.1 版已發行
|
AWS ParallelCluster 3.3.1 版已發行。
變更:
錯誤修正:
如需變更的詳細資訊,請參閱 GitHub 上 aws-parallelcluster 套件CHANGELOG 的檔案。
|
2022 年 12 月 2 日
|
AWS ParallelCluster 文件專用 hpc6id 備註
|
AWS ParallelCluster 僅文件更新
|
2022 年 12 月 2 日
|
AWS ParallelCluster 3.1.5 版已發行
|
AWS ParallelCluster 3.1.5 版已發行。
增強功能:
-
修正防止閒置節點終止的 Slurm 問題。
-
將 EFA 安裝程式升級至 1.18.0
-
Efa-driver: efa-1.16.0-1
-
Efa-config: efa-config-1.11-1 (來自 efa-config-1.9-1 )
-
Efa-profile:efa-profile-1.5-1 (無變更)
-
Libfabric-aws: libfabric-aws-1.16.0~amzn4.0-1 (來自 libfabric-1.13.2 )。
-
Rdma-core: rdma-core-41.0-2 (來自 rdma-core-37.0 )
-
開啟 MPI: openmpi40-aws-4.1.4-2 (來自 openmpi40-aws-4.1.1-2 )
變更:
-
ParallelClusterUserRole 將 lambda:ListTags 和 lambda:UntagResource 新增至 AWS ParallelCluster API 堆疊用於叢集更新的 。
-
將 Intel MPI Library 升級至版本 2021 Update 6 (自版本 2021 Update 4 起)。如需詳細資訊,請參閱 Intel® MPI Library 2021 Update 6。
-
將 NVIDIA 驅動程式升級至 470.141.03 版 (從 470.103.01)。
-
將 NVIDIA Fabric Manager 升級到 470.141.03 版 (從 470.103.01)。
如需變更的詳細資訊,請參閱 GitHub 上 aws-parallelcluster、aws-parallelcluster-cookbook 和 aws-parallelcluster-node 套件CHANGELOG 的檔案。
|
2022 年 11 月 16 日
|
AWS ParallelCluster 3.3.0 版已發行
|
AWS ParallelCluster 3.3.0 版已發行。
增強功能:
變更:
-
變更 SlurmQueues / Networking / PlacementGroup / 的行為Enabled 。它現在會為每個運算資源建立唯一的受管置放群組,而不是為所有運算資源建立單一受管置放群組。
-
新增對 SlurmQueues / Networking / PlacementGroup / Name 的支援作為偏好的命名方法。
-
將前端節點標籤從啟動範本移至執行個體定義,以避免在標籤更新時更換前端節點。
-
停用透過 執行的指令碼執行的多執行緒cloud-init ,而不是透過啟動範本中的CpuOptions 設定。
-
在 API 基礎設施、API Docker 容器和叢集 Lambda 資源中,將 Python 升級至 3.9 版和 NodeJS 升級至 16 版。
-
在 中移除對 Python 3aws-parallelcluster-batch-cli .6 的支援。
-
升級 Slurm 至版本 22.05.5 (從 21.08.8-2 )。
-
將 NVIDIA 驅動程式升級至版本 470.141.03 (從 470.129.06 )。
-
將 NVIDIA Fabric Manager 升級到版本 470.141.03 (從 470.129.06 )。
-
將 NVIDIA CUDA Toolkit 升級到 11.7.1 版 (from 11.4.4 )。
-
將 AWS ParallelCluster Virtualenvs 中使用的 Python 從 升級至 3.7.13 3.9.15 。
-
將 EFA 安裝程式升級至 1.18.0 版。
-
Efa-driver:efa-1.16.0-1 (無變更)
-
Efa-config:efa-config-1.11-1 (from efa-config-1.10-1 )
-
Efa-profile:efa-profile-1.5-1 (無變更)
-
Libfabric-aws: libfabric-aws-1.16.0~amzn4.0-1 (來自 libfabric-aws-1.16.0~amzn2.0-1 )。
-
Rdma-core: rdma-core-41.0-2 (來自 rdma-core-37.0 )
-
開啟 MPI: openmpi40-aws-4.1.4-2 (來自 openmpi40-aws-4.1.1-2 )
-
將 NICE DCV 升級到版本 2022.1-13300 (從 2022.0-12760 )。
-
為 啟用抑制 SingleSubnetValidator Queues 。
-
當DRAIN 節點處於 COMPLETING 狀態時,請勿取代節點,因為 Epilog 可能仍在執行中。
錯誤修正:
-
修正 AWS ParallelCluster ListClusterLogStreams 命令中篩選條件參數的驗證,以便在傳遞不正確的篩選條件時失敗。
-
修正當 與其他 SharedStorage / EfsSettings 參數指定FileSystemId 時,參數 SharedStorage / EfsSettings 的驗證失敗。先前FileSystemId 並未包含 。
-
修正變更 SharedStorage 順序與組態中其他變更時的叢集更新。
-
修正 AWS ParallelCluster API UpdateParallelClusterLambdaRole 中的 ,以將日誌上傳至 CloudWatch。
-
修正在執行任何技術指南之前安裝套件時,未使用本機 CA 憑證套件的 Cinc。
-
Build:UpdateOsPackages:Enabled:true 使用 設定 pcluster build-image 時,修正升級 ubuntu 時的懸置。
-
透過重複金鑰失敗來修正 YAML 叢集組態的剖析。
如需變更的詳細資訊,請參閱 GitHub 上的 aws-parallelcluster、aws-parallelcluster-cookbook 和 aws-parallelcluster-node 套件CHANGELOG 的檔案。
|
2022 年 11 月 2 日
|
AWS ParallelCluster 僅新增 文件 API 參考。
|
AWS ParallelCluster 僅文件更新
|
2022 年 10 月 27 日
|
AWS ParallelCluster 3.2.1 版已發行
|
AWS ParallelCluster 3.2.1 版已發行。
增強功能:
變更:
-
將 NVIDIA 驅動程式升級至 470.141.03 版。
-
將 NVIDIA Fabric Manager 升級到 470.141.03 版。
-
停用cron 任務 man-db 和 mlocate ,這可能會對節點效能產生負面影響。
-
將 Intel MPI Library 升級至 2021.6.0.602。
-
將 Python 從 3.7.10 升級到 3.7.13 以回應此安全風險。
錯誤修正:
如需變更的詳細資訊,請參閱 GitHub 上 aws-parallelcluster、aws-parallelcluster-cookbook 和 aws-parallelcluster-node 套件CHANGELOG 的檔案。
|
2022 年 10 月 3 日
|
AWS ParallelCluster 3.2.0 版已發行
|
AWS ParallelCluster 3.2.0 版已發行。
增強功能:
變更:
-
將 EFA 安裝程式升級至 1.17.2 版。
-
EFA 驅動程式: efa-1.16.0-1
-
EFA 組態: efa-config-1.10-1
-
EFA 設定檔: efa-profile-1.5-1
-
Libfabric: libfabric-aws-1.16.0~amzn2.0-1
-
RDMA 核心: rdma-core-41.0-2
-
開啟 MPI: openmpi40-aws-4.1.4-2
-
將 NICE DCV 升級至 2022.0-12760 版。
-
將 NVIDIA 驅動程式升級至 470.129.06 版。
-
將 NVIDIA Fabric Manager 升級到 470.129.06 版。
-
在根磁碟區和其他磁碟區中,將預設 EBS 磁碟區類型從 gp2 變更為 gp3。
-
FSx for Lustre 檔案系統的變更建立者 AWS ParallelCluster:
-
將預設部署類型變更為 Scratch_2 。
-
將 Lustre 伺服器版本變更為 2.12 。
-
傳遞現有的 / true 時,不需要將 PlacementGroup PlacementGroup / Enabled 設定為 Id 。
-
當 PlacementGroup / Enabled 明確設為 Id 時,不允許設定 PlacementGroup /false 。
-
將parallelcluster:cluster-name 標籤新增至 建立的所有資源 AWS ParallelCluster。
-
lambda:UntagResource 將 lambda:ListTags 和 新增至 AWS ParallelCluster API ParallelClusterUserRole 堆疊用於叢集更新。
-
Secured 啟用組態參數 / HeadNode / 時,僅限IMDS 根和叢集管理員使用者的 IPv6 Imds 存取。
-
使用自訂 AMI 時,請使用 AMI 根磁碟區大小,而非 ParallelCluster 預設值 35 GiB。您可以在叢集組態檔案中變更 值。
-
當組態參數 Scheduling / SlurmQueues / / SpotPrice 低於所需的 Spot ComputeResources 請求履行價格下限時,自動停用運算機群。
-
在更新期間新增或移除區段時,在變更集中顯示 requested_value 和 current_value 值。
-
停用 aws-ubuntu-eni-helper 服務,可在深度學習 AMIs 中使用,以避免在使用多個網路卡設定執行個體configure_nw_interface.sh 時與 衝突。
-
移除對 Python 3.6 的支援。
-
使用多個網路卡設定執行個體時,將所有網路介面的 MTU 設定為 9001。
-
設定運算節點 FQDN 時,移除結尾的點。
-
在 中管理靜態節點POWERING_DOWN 。
-
不會在 中取代動態節點,POWER_DOWN 因為任務可能仍在執行中。
-
只有在叢集組態中更新Scheduling 參數時,才能在叢集更新時間重新啟動 slurmctld clustermgtd 和 精靈。
-
更新 slurmctld slurmd systemd 和服務檔案。
-
Secured 啟用組態參數 / / 時,將 IMDS Imds 的 IPv6 HeadNode 存取限制為僅限根和叢集管理員使用者。
-
設定 Slurm 組態AuthInfo=cred_expire=70 ,以減少節點無法使用時,重新排入佇列任務必須等待的時間,然後再重新開始。
-
升級第三方技術指南相依性:
-
apt-7.4.2 (來自 apt-7.4.0)
-
line-4.5.2 (從 line-4.0.1)
-
openssh-2.10.3 (來自 openssh-2.9.1)
-
pyenv-3.5.1 (來自 pyenv-3.4.2)
-
selinux-6.0.4 (來自 selinux-3.1.1)
-
yum-7.4.0 (來自 yum-6.1.1)
-
yum-epel-4.5.0 (來自 yum-epel-4.1.2)
錯誤修正:
-
修正預設行為,以便在建置自訂 AMI 時略過 AWS ParallelCluster 驗證和測試步驟。
-
修正 中的檔案控制代碼洩漏computemgtd 。
-
修正偶爾導致啟動的執行個體因為尚未在 EC2 DescribeInstances 回應中提供而立即終止的競爭條件。
-
修正對使用 Arm 處理器之執行個體類型的 DisableSimultaneousMultithreading 參數支援。
-
從舊版升級時修正 AWS ParallelCluster API 堆疊更新失敗。在 中新增用於ListImagePipelineImages 動作的資源模式EcrImageDeletionLambdaRole 。
-
修正 AWS ParallelCluster API 在建立 FSx for Lustre 檔案系統時,新增從 Amazon S3 匯入或匯出所需的缺少許可。
如需變更的詳細資訊,請參閱 GitHub 上 aws-parallelcluster、aws-parallelcluster-cookbook 和 aws-parallelcluster-node 套件CHANGELOG 的檔案。
|
2022 年 7 月 27 日
|
AWS ParallelCluster 今年至今僅提供文件的更新
|
AWS ParallelCluster 僅限文件的更新。
新區段:
區段更新:
|
2022 年 7 月 6 日
|
AWS ParallelCluster 3.1.4 版已發行
|
AWS ParallelCluster 3.1.4 版已發行。
增強功能:
變更:
錯誤修正:
-
修正使用 export-cluster-logs 命令搭配 --filters 選項時匯出叢集日誌的功能。
-
修正 AWS Batch Docker 進入點,以使用/home 共用目錄來協調Multi-node-Parallel任務執行。
-
將 Slurm 運作狀態不良的靜態節點設定為關閉時重設節點地址,以避免將容量不足的靜態節點視為引導失敗節點。
如需變更的詳細資訊,請參閱 GitHub 上 aws-parallelcluster、aws-parallelcluster-cookbook 和 aws-parallelcluster-node 套件CHANGELOG 的檔案。
|
2022 年 5 月 16 日
|
AWS ParallelCluster 3.1.3 版已發行
|
AWS ParallelCluster 3.1.3 版已發行。
增強功能:
-
執行 SSH 金鑰建立以及建立 HOME 目錄,例如,在 SSH 登入期間、切換到另一個使用者時,以及以另一個使用者身分執行命令時。
-
在組態參數 DirectoryService / DomainName 中新增對 FQDN 和 LDAP 辨別名稱的支援。新的驗證程式現在會檢查這兩個語法。
-
部署在前端節點上的新update_directory_service_password.sh 指令碼支援在 SSSD 組態中手動更新 Active Directory 密碼。密碼由 AWS Secrets Manager 從叢集組態擷取為 。
-
新增支援以在沒有預設 VPC 的環境中部署 API 基礎設施。
變更:
錯誤修正:
如需變更的詳細資訊,請參閱 GitHub 上 aws-parallelcluster 和 aws-parallelcluster-cookbook 套件CHANGELOG 的檔案。
|
2022 年 4 月 20 日
|
AWS ParallelCluster 3.1.2 版已發行
|
AWS ParallelCluster 3.1.2 版已發行。
變更:
錯誤修正:
如需變更的詳細資訊,請參閱 GitHub 上 aws-parallelcluster 套件CHANGELOG 的檔案。
|
2022 年 3 月 2 日
|
AWS ParallelCluster 3.1.1 版已發行
|
AWS ParallelCluster 3.1.1 版已發行。
-
透過與透過 Directory AWS Service 管理的 Active Directory (AD) 網域整合,新增對多個使用者叢集環境的支援。
-
在叢集組態檔案中新增對 UseEc2Hostnames 的支援。設為 true 時,針對運算節點使用 Amazon EC2 預設主機名稱 (例如 ip-1-2-3-4)。
-
新增在沒有網際網路存取的子網路中建立叢集的支援。
-
為每個佇列新增對多個運算執行個體類型的支援。
-
新增使用 NVIDIA 卡在 ARM 執行個體上使用 Slurm 進行 GPU 排程的支援。
-
將 cluster-name (-n )、 region (-r )、 image-id (-i ) 和 / cluster-configuration image-configuration (-c ) 的縮寫旗標新增至 AWS ParallelCluster CLI。
-
新增對 FSx for Lustre AutoImportPolicy 參數NEW_CHANGED_DELETED 選項的支援。
-
將parallelcluster:compute-resource-name 標籤新增至運算節點使用的 EC2 LaunchTemplates 資源。
-
改善叢集內建立的安全群組,以便在為某些前端節點和/或佇列指定SecurityGroups 參數時,允許來自自訂安全群組的傳入連線。
-
安裝適用於 ARM 的 NVIDIA 驅動程式和 CUDA 程式庫。
變更:
-
升級 Slurm 至版本 21.08.5 (從 20.11.8 )。
-
將 Slurm 外掛程式升級至版本 21.08 (從 20.11 )。
-
將 NICE DCV 升級到版本 2021.3-11591 (從 2021.1-10851 )。
-
將 NVIDIA 驅動程式升級至版本 470.103.01 (從 470.57.02 )。
-
將 NVIDIA Fabric Manager 升級到版本 470.103.01 (從 470.57.02 )。
-
將 CUDA 升級到版本 11.4.4 (從 11.4.0 )。
-
Intel MPI 已更新至版本 2021 Update 4 (更新自版本 2019 Update 8)。如需詳細資訊,請參閱 Intel® MPI Library 2021 Update 4。
-
將 PMIx 升級到版本 3.2.3 (從 3.1.5 )。
-
將失敗的運算節點傾印移除至 /home/logs/compute 。運算節點日誌檔案可在 CloudWatch 和 Amazon EC2 主控台日誌中使用。
-
啟用隱藏SlurmQueues 和ComputeResources 長度驗證程式的潛力。
-
在 Amazon Linux 2 上的執行個體啟動時間停用套件更新。
-
在建置 AWS ParallelCluster 自訂映像時停用 Amazon EC2 ImageBuilder 增強型映像中繼資料。
-
將cloud-init 資料來源明確設定為 EC2。這可節省 Ubuntu 和 CentOS 平台的開機時間。
-
在運算機群啟動範本名稱中使用運算資源名稱,而非執行個體類型。
-
將 stderr 和 stdout 重新導向至 CLI 日誌檔案,以防止 pcluster CLI 輸出中出現不需要的文字。
-
將設定/安裝配方移至從主要技術指南呼叫的個別技術指南。現有的進入點會維護並回溯相容。
-
在 AMI 建置期間下載 Intel HPC 平台的相依性,以避免在叢集建立期間接觸網際網路。
-
設定 Slurm 節點時,請勿- 從運算資源名稱中分割。
-
未安裝 NVIDIA 驅動程式時,請勿在 Slurm 中設定 GPUs。
-
修正 中的ecs:ListContainerInstances 許可BatchUserRole 。
-
修正未指定字首、先前匯出至字None 首的叢集日誌匯出。
-
在叢集更新失敗時,不會執行修正轉返。
-
修正 中的ecs:ListContainerInstances 許可BatchUserRole 。
-
如果KmsKeyId 指定不支援的 RootVolume ,HeadNode 請引發錯誤來修正 的結構描述。
-
修正要在 CloudWatch Dashboard 中顯示的 Amazon FSx 遺失指標。
-
修正 EfaSecurityGroupValidator 。先前,當提供自訂安全群組並啟用 EFA 時,它可能會導致錯誤失敗。
如需變更的詳細資訊,請參閱 GitHub 上 aws-parallelcluster、aws-parallelcluster-cookbook 和 aws-parallelcluster-node 套件CHANGELOG 的檔案。
|
2022 年 2 月 10 日
|
AWS ParallelCluster 3.0.3 版已發行
|
AWS ParallelCluster 3.0.3 版已發行。
如需變更的詳細資訊,請參閱 GitHub 上 aws-parallelcluster 和 aws-parallelcluster-cookbook 套件CHANGELOG 的檔案。
|
2022 年 1 月 17 日
|
AWS ParallelCluster 3.0.2 版已發行
|
AWS ParallelCluster 3.0.2 版已發行。
將 Elastic Fabric Adapter 安裝程式升級至 1.14.1
-
EFA 組態: efa-config-1.9-1 (來自 efa-config-1.9 )
-
EFA 設定檔: efa-profile-1.5-1 (來自 efa-profile-1.5 )
-
EFA 核心模組: efa-1.14.2 (來自 efa-1.13.0 )
-
RDMA 核心: rdma-core-37.0 (來自 rdma-core-35 )
-
Libfabric: libfabric-1.13.2 (來自 libfabric-1.13.0 )
-
開啟 MPI:openmpi40-aws-4.1.1-2 (無變更)
如果執行個體類型支援,一律會啟用 GPUDirect RDMA。GdrSupport 組態選項沒有效果。
如需變更的詳細資訊,請參閱 GitHub 上 aws-parallelcluster、aws-parallelcluster-cookbook 和 aws-parallelcluster-node 套件CHANGELOG 的檔案。
|
2021 年 11 月 5 日
|
AWS ParallelCluster 3.0.1 版已發行
|
AWS ParallelCluster 3.0.1 版已發行。
叢集組態遷移工具
前端節點可以停止
預設 AWS 區域讀取自 ~/.aws/config 檔案
如需變更的詳細資訊,請參閱 GitHub 上 aws-parallelcluster、aws-parallelcluster-cookbook 和 aws-parallelcluster-node 套件CHANGELOG 的檔案。
|
2021 年 10 月 27 日
|
AWS ParallelCluster 3.0.0 版已發行
|
AWS ParallelCluster 3.0.0 版已發行。
透過 Amazon API Gateway 支援叢集管理
改善自訂 AMI 建立
如需變更的詳細資訊,請參閱 GitHub 上 aws-parallelcluster、aws-parallelcluster-cookbook 和 aws-parallelcluster-node 套件CHANGELOG 的檔案。
|
2021 年 9 月 10 日
|