AWS ParallelCluster
変更 |
説明 |
日付 |
AWS ParallelCluster バージョン 3.13.2 をリリース
|
アップグレードするには、 と入力しますsudo pip install --upgrade aws-parallelcluster 。
バグ修正:
|
2025 年 6 月 24 日
|
AWS ParallelCluster バージョン 3.13.1 をリリース
|
アップグレードするには、 と入力しますsudo pip install --upgrade aws-parallelcluster 。
変更:
-
Slurm をバージョン 24.05.8 にアップグレードします。
-
EFA インストーラを 1.41.0 (1.38.1 から) にアップグレードします。
-
Efa-driver: efa-2.15.0-1
-
Efa-config: efa-config-1.18-1
-
Efa-profile: efa-profile-1.7-1
-
Libfabric-aws: libfabric-aws-2.1.0-1
-
Rdma-core: rdma-core-57.0-1
-
Open MPI: openmpi40-aws-4.1.7-2 および openmpi50-aws-5.0.6
-
Amazon Linux 以外の AMI では、amazon-efs-utils をバージョン 2.3.1 (v2.1.0 から) にアップグレードします。
-
us-isob-east-1 および us-iso-east-1 で DCV をサポートします。
-
us-isob-east-1 および us-iso-east-1 で FSX for Lustre と Ontap をサポートします。
-
ParallelCluster イメージビルド全体でカーネルの一貫性を確保するには、開始時にピン留めし、終了時にピン留めを解除します。
バグ修正:
|
2025 年 6 月 4 日
|
AWS ParallelCluster バージョン 3.13.0 をリリース
|
アップグレードするには、 と入力しますsudo pip install --upgrade aws-parallelcluster 。
非推奨:
機能強化:
-
Ubuntu 24.04 のサポートを追加します。
-
ap-southeast-7 リージョンのサポートを追加します。
-
セキュリティを向上させるために、公式 ParallelCluster AMIs から未使用のサービスカップと wpa_supplicant を無効にします。
変更:
-
Slurm をバージョン 24.05.7 にアップグレードします。
-
AL2 を除くすべての OSs で NVIDIA ドライバーをバージョン 570.86.15 (550.127.08 から) にアップグレードします。
-
AL2 を除くすべての OSs で CUDA Toolkit をバージョン 12.8.0 (12.4.1 から) にアップグレードします。
-
AL2 (3.9.20 から) を除くすべての OSs で Python を 3.12.8 にアップグレードします。 AL2
-
Ubuntu 22.04 では、カーネルのコンパイルに使用したのと同じコンパイラバージョンで Nvidia ドライバーをインストールします。
-
バージョン 2.0-33 aws-cfn-bootstrap にアップグレードします。
-
EFA インストーラを 1.38.0 (1.36.0 から) にアップグレードします。
-
Efa-driver: efa-2.13.0-1
-
Efa-config: efa-config-1.17-1
-
Efa-profile: efa-profile-1.7-1
-
Libfabric-aws : libfabric-aws-1.22.0-1
-
Rdma-core: rdma-core-54.0-1
-
Open MPI: openmpi40-aws-4.1.7-1 および openmpi50-aws-5.0.5
-
amazon-efs-utils をバージョン 2.1.0 にアップグレードします。
-
サードパーティーのクックブックを削除する: apt-7.5.22 および pyenv-4.2.3。
-
サードパーティのクックブックの依存関係をアップグレード:
-
line-4.5.21 (line-4.5.13 から)
-
nfs-5.1.5 (nfs-5.1.2 から)
-
openssh-2.11.14 (openssh-2.11.12 から)
-
yum-7.4.20 (yum-7.4.13 から)
-
yum-epel-5.0.8 (yum-epel-5.0.2 から)
-
Pmix を 5.0.6 (5.0.3 から) にアップグレードします。
-
ARM PL をバージョン 24.10 (23.10 から) にアップグレードします。
-
Lambda レイヤーとインストーラで Python をバージョン 3.12.8 (3.9.17 から) にアップグレードします。
-
Lambda レイヤーとインストーラで NodeJS をバージョン 20.18.3 (18.20.3 から) にアップグレードします。
-
ログインノードの DSA キーの生成を DSA として削除します。DSA は OpenSSH 9.7 以降ではサポートされなくなりました。
-
コンピューティングノードの起動時に Slurm でインスタンス ID とインスタンスタイプ情報を設定します。
-
NVIDIA インストーラで廃止されたno-cc-version-check」オプションを使用せずに NVIDIA ドライバーをインストールします。
-
検証機能を追加して、最大 10 個のログインノードプールを適用します。
-
デフォルトのルートボリュームサイズを 45 GB に更新します。
バグ修正:
-
コンピューティングノードのブートストラップに cfn-init を使用すると、ノードのスケールアップ時間を短縮できます。
-
プロキシの使用時にコンピューティングノードのブートストラップが失敗する問題を修正しました。
-
Ubuntu 22.04 では、インストールの失敗を防ぐためにカーネルのコンパイルに使用したのと同じコンパイラバージョンで Nvidia ドライバーをインストールします。- 更新中にヘッドノードでのみ aws-parallelcluster-node パッケージを上書きする実行を修正しました。
-
マルチユーザー環境 (Active Directory と統合) で Pyxis/Enroot を介して実行されるコンテナ化されたジョブが失敗する問題を修正しました。
-
ディレクトリサービスが使用されているときに、Rocky 9.5+ でノードブートストラップ障害を引き起こす認証選択の使用を修正しました。
|
2025 年 4 月 1 日
|
AWS ParallelCluster バージョン 3.12.0 をリリース
|
アップグレードするには、 と入力しますsudo pip install --upgrade aws-parallelcluster 。
機能強化:
-
新しいビルドイメージ設定セクションを追加してBuild/Installation 、NVIDIA ソフトウェアと Lustre クライアントのインストールをオン/オフにします。デフォルトでは、NVIDIA ソフトウェアは公式の ParallelCluster AMIs に含まれていますが、 によってインストールされませんbuild-image 。デフォルトでは、Lustre クライアントがインストールされます。
-
CLI コマンド export-cluster-logs および export-image-logs は、デフォルトでデフォルトの ParallelCluster バケットまたは 設定で指定されている場合は CustomS3Bucket にログをエクスポートできるようになりました。
-
ARM インスタンスで Amazon DCV サポートを Ubuntu2204 に拡張します。
変更:
-
NVIDIA ドライバーをバージョン 550.127.08 (550.90.07 から) にアップグレードします。これは NVIDIA の既知の問題に対処します。詳細については、NVIDIA データセンタードキュメントの「既知の問題」を参照してください。
-
Amazon DCV をバージョン にアップグレードします2024.0-18131 。
-
EFA インストーラーを 1.36.0 にアップグレードします。
-
Efa-driver: efa-2.13.0-1
-
Efa-config: efa-config-1.17-1
-
Efa-profile: efa-profile-1.7-1
-
Libfabric-aws: libfabric-aws-1.22.0-1
-
Rdma-core: rdma-core-54.0-1
-
Open MPI: openmpi40-aws-4.1.7-1 および openmpi50-aws-5.0.5
-
障害発生時に slurmctld を自動的に再起動します。
-
mysql-community-client をバージョン 8.0.39 にアップグレードします。
-
有効期限が切れた Python 3.7 および 3.8 のサポートを削除します。
バグ修正:
-
クラスターの更新中に一連のカスタムアクションスクリプトの変更が検出されなかった問題を修正しました。
-
ログインノードをデプロイするために必要な Elastic Load Balancing と Auto Scaling のサービスにリンクされたロールを作成するための AWS ParallelCluster API のアクセス許可の欠落を追加します。
-
ボリュームの管理時にリージョンを取得する方法の問題を修正し、ローカルゾーンを正しく処理できるようにします。
-
更新AccessPointIds 中に で EFS ファイルシステムを追加すると失敗する問題を修正しました。
-
PCAPI を使用する場合、 型ではないパラメータ String ( など) を更新するとクラスターの更新が失敗する問題を修正しましたMaxCount 。
-
外部 OpenZFS をマウントする場合、ポート 111、2049、20001、20002、20003 のアウトバウンドルールを設定する必要がなくなりました。
|
2024 年 12 月 19 日
|
AWS ParallelCluster バージョン 3.11.1 をリリース
|
機能:
-
Pyxis はデフォルトで無効になったため、製品ドキュメントに記載しているように手動で有効にする必要があります。
-
ParallelCluster Lambda Layer で Python ランタイムをバージョン 3.12 にアップグレードしました。
-
setuptools のバージョンピン留めを 70.0.0 より前のバージョンから削除しました。
-
libjwt をバージョン 1.17.0 にアップグレードしました。
完全な変更ログ
バグ修正
|
2024 年 10 月 21 日
|
AWS ParallelCluster バージョン 3.11.0 をリリース
|
機能強化
ログインノードでカスタムアクションのサポートを追加します。 ログインノードへの DCV 接続を許可します。 ap-southeast-3 リージョンのサポートを追加します。 ログインノードの Network Load Balancer にセキュリティグループを追加します。 ログインノードAllowedIps の設定を追加します。 マウント用のオプションの EFS アクセスポイントSharedStorage/EfsSettings/AccessPointId を指定する新しい設定を追加する 最大 10 個のログインノードプールを許可します。 公式の pcluster AMIs に enroot と pyxis をインストールする
変更
〔BREAKING] API DescribeCluster と CLI コマンドによって返される loginNodes フィールドdescribe-cluster が、複数のログインノードのプールをサポートするようにディクショナリから配列に変更されました。この変更により、下位互換性が損なわれ、これらのオペレーションは古いバージョンでデプロイされたクラスターと互換性がありません。
Slurm を 23.11.10 (23.11.7 から) にアップグレードします。 Pmix を 5.0.3 (5.0.2 から) にアップグレードします。 EFA インストーラーを 1.34.0 にアップグレードします。
Efa-driver: efa-2.10.0-1 Efa-config: efa-config-1.17-1 Efa-profile: efa-profile-1.7-1 Libfabric-aws: libfabric-aws-1.22.0-1 Rdma-core: rdma-core-52.0-1 Open MPI: openmpi40-aws-4.1.6-3 および openmpi50-aws-5.0.3-11
NVIDIA ドライバーをバージョン 550.90.07 (535.183.01 から) にアップグレードします。 CUDA Toolkit をバージョン 12.4.1 (12.2.2 から) にアップグレードします。 Python を 3.9.20 (3.9.19 から) にアップグレードします。 Intel MPI Library を 2021.13.1.769 (2021.12.1.8 から) にアップグレードします。
バグ修正
キャパシティブロックの使用時にプレイスメントグループを設定することを提案EfaPlacementGroupValidator しないようにバリデータを修正しました。 セキュリティグループルールの後に FSx for Lustre ファイルシステムが作成されるようにすることで、クラスター作成の失敗が時折修正されます。 プレイスメントグループが有効になっている場合のクラスター削除の失敗を修正しました。 SSH アクセスを制限するときにログインノードが異常とマークされる問題を修正しました。 正しい S3 URL を取得retrieve_supported_regions できるように修正しました。 ページ分割を使用するdescribe_images ように修正しました。 LoginNodes/Networking/SubnetIds No route tables found にデフォルトの VPC サブネットを指定する際のバグを修正しました。
|
2024 年 9 月 26 日
|
AWS ParallelCluster バージョン 3.10.1 をリリース
|
バグ修正
|
2024 年 7 月 8 日
|
AWS ParallelCluster バージョン 3.10.0 をリリース
|
機能強化:
-
新しい設定セクションを追加してScheduling/SlurmSettings/ExternalSlurmdbd 、クラスターを外部 Slurmdbd に接続します。
-
分離されたネットワークで build-image を実行できるようにします。
-
Amazon Linux 2023 のサポートを追加します。
-
price-capacity-optimized として のサポートを追加しますAllocationStrategy 。
-
キャパシティブロックでプレイスメントグループを使用しないように検証機能を追加します。
変更:
-
CentOS 7 はサポートされなくなりました。
-
Cinc Client を 18.4.12 からバージョン 18.2.7 にアップグレードします。
-
munge をバージョン 0.5.16 (0.5.15 から) にアップグレードします。
-
Pmix を 5.0.2 (4.2.9 から) にアップグレードします。
-
サードパーティのクックブックの依存関係をアップグレード:
-
サードパーティーのクックブック selinux-6.1.12 を削除します。
-
EFA インストーラーを 1.32.0 にアップグレードします。
-
Efa-driver: efa-2.8.0-1
-
Efa-config: efa-config-1.16-1
-
Efa-profile: efa-profile-1.7-1
-
Libfabric-aws: libfabric-aws-1.21.0-1
-
Rdma-core: rdma-core-50.0-1
-
Open MPI: openmpi40-aws-4.1.6-3 および openmpi50-aws-5.0.2-12
-
NVIDIA ドライバーをバージョン 535.183.01 (535.154.05 から) にアップグレードします。
-
Python を 3.9.19 (3.9.17 から) にアップグレードします。
-
Intel MPI Library を 2021.12.1.8 (2021 年 9 月 0 日~43482) にアップグレードします。
バグ修正:
-
データリポジトリの関連付け設定を修正して、 AutoExportPolicy と をAutoImportPolicy オプションにしました。
-
クラスターの削除中に、インスタンスがシャットダウン状態または終了状態になったときにコンピューティングフリートのクリーンアップを完了する問題を修正しました。これは、終了サイクルが長いインスタンスタイプのクラスター削除の失敗を回避するためです。
-
クラスター設定の Monitoring セクションで、cloudwatch ダッシュボードの有効化とアラームの無効化を許可します。
-
ParallelCluster カスタムリソースが を使用して検証を抑制できるようにしますPclusterCluster/SuppressValidators 。
-
削除/etc/profile.d/pcluster.sh して、すべてのユーザーログインで実行されずcfn_bootstrap_virtualenv 、PATH 環境変数に追加されないようにします。
-
DescribeCluster レスポンスで フィールドfailureReason を に置き換えて ParallelCluster API 仕様を修正failures しました。
-
欠落していた CloudFormation スタックステータス REVIEW_IN_PROGRESS 、、 を追加して IMPORT_* ParallelCluster API 仕様を修正しましたUPDATE_FAILED 。
-
クラスターの更新に、転送中の暗号化を使用した EFS ファイルシステムが含まれない問題を修正しました。
-
EFS を共有内部データに使用すると、slurmctld および slurmdbd サービスがヘッドノードの再起動時に再起動できない問題を修正しました。
-
Ubuntu システムでは、ParallelCluster の設定と競合する cloud-init ログファイルのデフォルトの logrotate 設定を削除します。
-
RHEL 8.10 以降でイメージビルドの失敗を修正しました。
|
2024 年 6 月 27 日
|
AWS ParallelCluster バージョン 3.9.3 をリリース
|
アップグレードするには、「sudo pip install --upgrade aws-parallelcluster 」と入力します。
機能:
バグ修正:
|
2024 年 6 月 19 日
|
AWS ParallelCluster バージョン 3.9.2 をリリース
|
機能:
|
2024 年 5 月 28 日
|
AWS ParallelCluster バージョン 3.9.1 をリリース
|
アップグレードするには、次を入力します: sudo pip install --upgrade
aws-parallelcluster
バグ修正
|
2024 年 4 月 11 日
|
AWS ParallelCluster バージョン 3.9.0 をリリース
|
アップグレードするには、次を入力します: sudo pip install --upgrade
aws-parallelcluster
機能強化:
-
設定パラメータ DeploymentSettings/DefaultUserHome を追加して、デフォルトユーザーのホームディレクトリを /home (デフォルト) の代わりに /local/home に移動できるようにしました。
-
コンピューティングフリートを停止することなく、MinCount 、MaxCount 、Queue 、ComputeResource の各設定パラメータを更新できるようにしました。Scheduling/SlurmSettings/QueueUpdateStrategy を TERMINATE 設定することで、これらを更新できるようになりました。 AWS ParallelCluster は、クラスターの更新を通じて実行されたクラスター容量のサイズ変更中に削除されたノードのみを終了します。
-
コンピューティングフリートとログインフリートを置き換えることなく、Efs、FsxLustre、FsxOntap、FsxOpenZfs、FileCache の各タイプの外部共有ストレージを更新できるようにしました。
-
RHEL9 のサポートを追加しました。
-
build-image プロセスで作成した CustomAmi として Rocky Linux 9 のサポートを追加しました。現時点では、公式 AWS ParallelCluster の Rocky9 Linux AMI は利用できません。
-
CommunicationParameters カスタム Slurm 設定拒否リストから を削除します。
-
DeploymentSettings/DisableSudoAccessForDefaultUser パラメータを追加して、サポートされている OS におけるデフォルトユーザーの sudo アクセスを無効にしました。
-
ParallelCluster で作成した FSx for Lustre ファイルシステムへの変更: Lustre サーバーバージョンを 2.15. に変更
-
['cluster']['nvidia']['kernel_open'] クックブックノード属性を使用して、AMI の構築時にオープンソースとクローズドソースの Nvidia ドライバーのどちらかを選択できるようにしました。
-
* clustermgtd 設定オプション ec2_instance_missing_max_count を追加して、Amazon EC2 の記述インスタンスと実行インスタンスの結果整合性を実現するまでの再試行回数を設定できるようにしました。
変更
-
Slurm を 23.11.4 (23.02.7 から) にアップグレードします。
-
NVIDIA ドライバーをバージョン 535.154.05 にアップグレードしました。
-
pcluster CLI および aws-parallelcluster-batch-cli で Python 3.11、3.12 のサポートを追加しました。
-
MaximumNetworkCards 範囲をループする代わりに、Amazon EC2 DescribeInstances レスポンスの NetworkCardIndex リストから、ネットワークカードインデックスを使用してネットワークインターフェイスを構築します。
-
P3、G3、P2、G2 の各インスタンスタイプを使用する場合、GPU アーキテクチャが 3.8.0 リリースの一部として導入されたオープンソース Nvidia ドライバー (OpenRM) と互換性がないため、クラスターの作成が失敗します。
-
サードパーティのクックブック依存関係をアップグレード: nfs-5.1.2 (nfs-5.0.0 から)
-
EFA インストーラーを 1.30.0. にアップグレード
-
Efa-driver: efa-2.6.0-1
-
Efa-config: efa-config-1.15-1
-
Efa-profile: efa-profile-1.6-1
-
Libfabric-aws: libfabric-aws-1.19.0
-
Rdma-core: rdma-core-46.0-1
-
Open MPI: openmpi40-aws-4.1.6-2 および openmpi50-aws-5.0.0-11
-
NICE DCV をバージョン 2023.1-16388. にアップグレード
バグ修正
-
ログインノードから Active Directory ユーザーとして送信した場合にジョブが失敗する問題を修正しました。この問題は、ヘッドノードでの外部 Active Directory との統合の設定が不完全であるために発生しました。
-
CloudFormation テンプレートの parallelclutser-policies.yaml で定義されている IAM ポリシーをリファクタリングして、IAM 制限を超えるポリシーによる ParallelCluster API デプロイの失敗を防ぎました。
-
ヘッドノードがキーの書き込みに予想以上に時間がかかる場合、ログインノードがブートストラップに失敗する問題を修正しました。
変更点の詳細については、GitHub に掲載されている aws-parallelcluster-ui パッケージの CHANGELOG ファイルを参照してください。
|
2024 年 3 月 5 日
|
AWS ParallelCluster バージョン 3.8.0 をリリース
|
AWS ParallelCluster バージョン 3.8.0 がリリースされました。
機能強化:
-
Amazon EC2 Capacity Blocks for ML のサポートを追加しました。
-
build-image プロセスで作成した CustomAmi として Rocky Linux 8 のサポートを追加しました。現時点では、公式 AWS ParallelCluster の Rocky8 Linux AMI は利用できません。
-
Scheduling/ScalingStrategy パラメータを追加して、Slurm コンピューティングノードの Amazon EC2 インスタンスを起動するときに使用するクラスタースケーリング戦略を制御します。指定できる値は all-or-nothing 、greedy-all-or-nothing 、best-effort で、デフォルトは all-or-nothing です。
-
クラスター内共有ファイルシステムリソース (ParallelCluster 、Intel、Slurm、/home のデータ) に対して、ヘッドノードルートボリュームからの NFS エクスポートの代わりに EFS ストレージを使用するための HeadNode/SharedStorageType パラメータを追加しました。この機能強化により、ヘッドノードネットワークへの負荷が軽減されます。
-
設定ファイルの SharedStorage セクションを使用して EFS または FSx 外部共有ストレージとして /home をマウントすることを許可しました。
-
Secrets Manager から外部ユーザー定義 MUNGE AWS キーの使用SlurmSettings/MungeKeySecretArn を許可する新しいパラメータを追加します。
-
クラスターの Amazon CloudWatch アラームを切り替えるための Monitoring/Alarms/Enabled パラメータを追加しました。
-
Amazon EC2 ヘルスチェック、CPU 使用率、ヘッドノードの全体的なステータスをモニタリングするためのヘッドノードアラームを追加し、クラスターで作成した CloudWatch Dashboard に結果を追加しました。
-
マネージド FSx for Lustre で PERSISTENT_2 を DeploymentType として使用するときに、データリポジトリの関連付けのサポートを追加しました。
-
Scheduling/SlurmSettings/Database/DatabaseName パラメータを追加して、ユーザーが Slurm アカウンティングに使用するデータベースサーバーのデータベースのカスタム名を指定できるようにします。
-
コンピューティングリソースで CapacityReservationTarget/CapacityReservationId を設定するときに、InstanceType をオプションの設定パラメータにしました。
-
AWS ParallelCluster API で作成した IAM ロールとポリシーのプレフィックスを指定できるようにしました。
-
AWS ParallelCluster API によって作成された IAM ロールとポリシーに適用するアクセス許可の境界を指定する可能性を追加します。
変更
-
Slurm を 23.02.7 (23.02.6 から) にアップグレードします。
-
NVIDIA ドライバーをバージョン 535.129.03 にアップグレードしました。
-
CUDA ツールキットをバージョン 12.2.2 にアップグレードしました。
-
Linux 用の NVIDIA カーネルモジュールとして、クローズドソースの NVIDIA モジュールの代わりに、オープンソースの NVIDIA GPU ドライバー (OpenRM) を使用しました。
-
新しいScheduling/ScalingStrategy クラスターall_or_nothing_batch 設定を優先して、Slurm 再開プログラムの設定パラメータのサポートを削除します。
-
クラスターアラームの命名規則を「[cluster-name]-[component-name]-[metric]」に変更しました。
-
ルートボリュームと追加ボリュームの両方で、ADC リージョンのデフォルトの EBS ボリュームタイプを gp2 から gp3 に変更しました。
-
AWS ParallelCluster API のオプションのアクセス許可の境界が、API インフラストラクチャによって作成されたすべての IAM ロールに適用されるようになりました。
-
EFA インストーラーを 1.29.1 にアップグレードします。
-
Efa-driver: efa-2.6.0-1
-
Efa-config: efa-config-1.15-1
-
Efa-profile: efa-profile-1.5-1
-
Libfabric-aws: libfabric-aws-1.19.0-1
-
Rdma-core: rdma-core-46.0-1
-
Open MPI: openmpi40-aws-4.1.6-1
-
サポートされているすべての OS で GDRCopy をバージョン 2.4 にアップグレードしました。ただし、例外として Centos 7 ではバージョン 2.3.1 を使用します。
-
aws-cfn-bootstrap をバージョン 2.0-28 にアップグレードしました。
-
aws-parallelcluster-batch-cli で Python 3.10 のサポートを追加しました。
バグ修正
-
[コンピューティングリソース] で宣言したインスタンスタイプのリストを変更すると、クラスター更新のロールバック後にスケーリング設定が一貫しない問題を修正しました。
-
クラスター設定ファイルを介して外部 LDAP サーバーと統合されたクラスターで、ルート権限のないユーザーを切り替えると、ユーザー SSH キーが生成される問題を修正しました。
-
を設定するときの Slurm 省電力モードの無効化を修正しましたScaledownIdletime = -1 。
-
Slurm アカウンティングのupdate_slurm_database_password.sh スクリプトの Slurm インストールディレクトリへのハードコードされたパスを修正しました。
|
2023 年 12 月 19 日
|
AWS ParallelCluster バージョン 3.7.2 のリリース
|
AWS ParallelCluster バージョン 3.7.2 がリリースされました。
変更:
|
2023 年 10 月 25 日
|
AWS ParallelCluster バージョン 3.7.1 をリリース
|
AWS ParallelCluster バージョン 3.7.1 がリリースされました。
変更:
|
2023 年 9 月 22 日
|
AWS ParallelCluster バージョン 3.7.0 をリリース
|
AWS ParallelCluster バージョン 3.7.0 がリリースされました。
機能強化:
-
設定 YAML ファイルを使用して、コンピューティングリソースの静的ノードと動的ノードの優先順位 AWS ParallelCluster の設定をサポートします。
-
Ubuntu 22 のサポートを追加します。RSA キーは、デフォルトではサポートされていません。
-
キュー設定 JobExclusiveAllocation を追加して、パーティション内のノードを常に 1 つのジョブのみに割り当てるようにします。
-
クラスターの作成時と更新時に aws-parallelcluster-node パッケージをオーバーライドすることを許可しました。ヘッドノードの場合、これはクラスターの更新に適用されます。開発目的にのみ役立ちます。
-
コンピューティングノードで NFS サーバーを起動することを回避します。
-
ログインノードのサポートを追加します。
-
Slurm コンピューティングリソースに複数のインスタンスタイプが指定されている場合に、メモリベースのスケジューリングが可能になりました。
-
既存の Amazon File Cache を共有ストレージとしてマウントするサポートを追加します。
変更:
-
デフォルトでは、Slurm 動的ノードに優先度 (重み) を 1000 に設定します。これにより、Slurm はアイドル状態の動的ノードよりもアイドル状態の静的ノードを優先できます。
-
デーモンaws-parallelcluster-node がマネージド Slurm パーティションのみを処理する AWS ParallelCluster ようにします。
-
EFS-utils ウォッチドッグのポーリング間隔を 10 秒に増やしました。この変更は、ウォッチドッグを実行する唯一の条件として EncryptionInTransit が true に設定されている場合に適用されます。
-
EFA インストーラーを 1.25.1 にアップグレードします。
-
Efa-driver: efa-2.5.0-1 (efa-2.1.1g から)
-
Efa-config: efa-config-1.15-1 (efa-config-1.13-1 から)
-
Efa-profile: efa-profile-1.5-1 (変更なし)
-
Libfabric-aws: libfabric-aws-1.18.1-0 (libfabric-aws-1.17.1-1 から)
-
Rdma-core: rdma-core-46.0-1 (rdma-core-43.0-1 から)
-
Open MPI: openmpi40-aws-4.1.5-4 (
openmpi40-aws-4.1.5-1 から)
-
Slurm をバージョン 23.02.4 にアップグレードします。
-
Imds/ImdsSupport のデフォルト値を v1.0 から v2.0 に変更します。
-
Ubuntu 18 は非推奨になります。
-
Centos 7 の制限を考慮して、デフォルトのルートボリュームサイズを 40 GB に更新します。
-
ヘッドノード内の /tmp/wait_condition_handle.txt のアクセス許可を制限して、root だけが読み取れるようになります。
-
ノードパッケージデーモンが PC 管理の Slurm パーティションとノードリストを認識するために使用する Slurm パーティションとノードリストのマッピング JSON ファイルを作成します。
-
NVIDIA ドライバーをバージョン 535.54.03 にアップグレードします。
-
CUDA ライブラリをバージョン 12.2.0 にアップグレードします。
-
NVIDIA ファブリックマネージャーを nvidia-fabricmanager-535 にアップグレードしました。
-
Ubuntu 22.04 の場合のみ、ARM PL をバージョン 23.04.1 にアップグレードします。
-
NICE DCV をバージョン 2023.0-15487 にアップグレードします。
バグ修正:
-
-1 より小さい値を設定しないように ScaledownIdletime 値に検証を追加します。
-
DCV が有効になっている GPU インスタンス上の Ubuntu Deep Learning AMI クラスター作成に失敗する問題を修正します。
-
CustomLambdaRole を使用して ParallelCluster CloudFormation カスタムリソースプロバイダーを作成する場合に、ダングリング IAM ポリシーが作成される問題を修正します。
-
SlurmSettings/Dns/UseEc2Hostnames を True に設定すると複数のネットワークインターフェイスを持つインスタンスでコンピューティングノードの DNS 名がずれてしまう問題を修正します。
変更点の詳細については、GitHub に掲載されている aws-parallelcluster、aws-parallelcluster-cookbook、aws-parallelcluster-node の各パッケージの CHANGELOG ファイルを参照してください。
|
2023 年 8 月 30 日
|
ドキュメントのみリリース
|
AWS ParallelCluster バージョン 3 固有のユーザーガイドが公開されました。
ドキュメントのみのリリース:
|
2023 年 7 月 17 日
|
AWS ParallelCluster バージョン 3.6.1 をリリース
|
AWS ParallelCluster バージョン 3.6.1 がリリースされました。
変更:
バグ修正:
-
ルートボリュームデバイス名 (/dev/sda1 および /dev/xvda ) のハードコーディングを削除し、 で使用されている AMIs から取得しますcreate-cluster 。
-
ElasticIp を True に設定して CloudFormation カスタムリソースを使用する場合のクラスター作成エラーを修正します。
-
大規模な設定ファイルで AWS CloudFormation カスタムリソースを使用する場合のクラスターの作成と更新の失敗を修正しました。
-
Ubuntu で ptrace 保護が無効にならず、libfabric でクロスメモリアタッチ (CMA) が許可されない問題を修正します。
-
複数のインスタンスタイプを使用していてインスタンスが返されない場合の、高速容量不足フェイルオーバーロジックを修正します。
変更点の詳細については、GitHub に掲載されている aws-parallelcluster、aws-parallelcluster-cookbook、aws-parallelcluster-node の各パッケージの CHANGELOG ファイルを参照してください。
|
2023 年 7 月 5 日
|
AWS ParallelCluster バージョン 3.6.0 をリリース
|
AWS ParallelCluster バージョン 3.6.0 がリリースされました。
ドキュメント:
機能強化:
-
RHEL8 のサポートを追加します。
-
AWS CloudFormation でクラスターを作成および管理するための CloudFormation カスタムリソースを追加します。 CloudFormation
-
設定 YAML ファイルでクラスター Slurm 設定をカスタマイズするためのサポートを追加します。 AWS ParallelCluster
-
LUA をサポートする Slurm を構築します。
-
クラスターごとのキューの最大数を 10 から 50 に増やします。各キューには、最大 50 のコンピューティングリソースを設定できます。各クラスターには、最大 50 のコンピューティングリソースを設定できます。
-
OnNodeStart 、OnNodeConfigured 、および OnNodeUpdated パラメータで設定されたイベントに対して、複数のカスタムアクションスクリプトのシーケンスを指定するサポートを追加します。
-
ジョブの実行前にコンピューティングノードに GPU ヘルスチェックを適用するための新しい設定セクションHealthChecks /Gpu を追加しました。
-
SlurmQueues および SlurmQueues /ComputeResources 設定に Tags のサポートを追加します。
-
Monitoring 設定に DetailedMonitoring のサポートを追加します。
-
AWS ParallelCluster
CloudWatch ダッシュボードにヘッドノードのメモリとルートボリュームのディスク使用率追跡用の mem_used_percent メトリクスと disk_used_percent メトリクスを追加し、これらのメトリクスを監視するためのアラームを設定します。
-
AWS ParallelCluster 管理ログのログローテーションサポートを追加します。
-
CloudWatch ダッシュボードで一般的なコンピューティングノードエラーと動的ノードの最長アイドル時間を追跡します。
-
SSL ソケットを作成するときに、DCV 認証サーバーが少なくとも TLS-1.2 プロトコルを使用するように強制します。
-
aarch64 centos7 と alinux2 を除くサポートされているすべてのオペレーティングシステムに、NVIDIA Data Center GPU Manager (DCGM) パッケージをインストールします。
-
デフォルトでカーネルモジュール nvidia-uvm をロードして、統合仮想メモリ (UVM) 機能を CUDA ドライバーに提供します。
-
NVIDIA 永続デーモンをシステムサービスとしてインストールします。
変更:
-
Slurm をバージョン にアップグレードします 23.02.2 (バージョン から22.05.8 )。
-
munge をバージョン 0.5.14 からバージョン 0.5.15 にアップグレードします。
-
Slurm を 30 TreeWidth に設定します。
-
Slurm prolog と epilog の設定をそれぞれターゲットディレクトリ/opt/slurm/etc/scripts/prolog.d/ と に設定します/opt/slurm/etc/scripts/epilog.d/ 。
-
コンピューティングノードの登録中にProlog スクリプトを実行する場合は、Slurm BatchStartTimeout を最大 3 分に設定します。
-
CloudWatch ログのデフォルトの RetentionInDays を 14 日から 180 日に増やします。
-
EFA インストーラーを 1.22.1 にアップグレードします。
-
Dkms: 2.8.3-2
-
Efa-driver: efa-2.1.1g (変更なし)
-
Efa-config: efa-config-1.13-1 (変更なし)
-
Efa-profile: efa-profile-1.5-1 (変更なし)
-
Libfabric-aws: libfabric-aws-1.17.1-1 (libfabric-aws-1.17.0-1 から)
-
Rdma-core: rdma-core-43.0-1 (変更なし)
-
Open MPI: openmpi40-aws-4.1.5-1 (変更なし)
-
Amazon Linux 2 で Lustre クライアントのバージョンを 2.12 にアップグレードします。Lustre クライアント 2.12 は、Ubuntu 20.04、18.04、CentOS 7.7 以降にインストールされています。
-
CentOS 7.6 で Lustre クライアントのバージョンを 2.10.8 にアップグレードします。
-
NVIDIA ドライバーをバージョン 470.141.03 からバージョン 470.182.03 にアップグレードします。
-
NVIDIA ファブリックマネージャーをバージョン 470.141.03 からバージョン 470.182.03 にアップグレードします。
-
NVIDIA CUDA ツールキットをバージョン 11.7.1 からバージョン 11.8.0 にアップグレードします。
-
NVIDIA CUDA サンプルをバージョン 11.8.0 にアップグレードします。
-
Intel MPI ライブラリをバージョン 2021 アップデート 6 からバージョン 2021 アップデート 9 にアップグレードします。詳細については、「Intel® MPI Library 2021 Update 9」を参照してください。
-
NICE DCV をバージョン 2022.2-14521 からバージョン 2023.0-15022 にアップグレードします。
-
server: 2023.0.15022-1 (バージョン 2022.2-14521-1 から)。
-
xdcv: 2023.0.547-1 (バージョン 2022.2.519-1 から)。
-
gl: 2023.0.1027-1 (バージョン 2022.2.1012-1 から)。
-
web_viewer: 2023.0.15022-1 (バージョン 2022.2.14521-1 から)。
-
aws-cfn-bootstrap をバージョン 2.0-24 にアップグレードします。
-
AWS バッチクラスターのコンテナイメージを構築するときに CodeBuild 環境で使用されるアップグレードイメージ:
-
aws/codebuild/amazonlinux2-x86_64-standard:4.0 (aws/codebuild/amazonlinux2-x86_64-standard:3.0 から)。
-
aws/codebuild/amazonlinux2-aarch64-standard:2.0 (aws/codebuild/amazonlinux2-aarch64-standard:1.0 から)。
バグ修正:
-
Amazon EFS と Amazon FSx のネットワークセキュリティグループバリデーターを修正して、誤ったエラーが報告されないようにします。
-
build-image オペレーション中に Image Builder によって作成されたリソースのタグ付けが欠落していた問題を修正しました。
-
MaxCount プロパティの数値比較を常に実行するように MaxCount 更新ポリシーを修正しました。
-
複数のネットワークカードを搭載したコンピューティングノードインスタンスの IP アラインメントを修正しました。
-
キューパラメータの更新が実行され、Slurm アカウンティング設定が更新されない場合の slurm_parallelcluster_slurmdbd.conf StoragePass の置き換えを修正しました。
-
既存の EFS ファイルシステムでクラスターを作成すると、ダングリングセキュリティグループが作成される問題を修正しました。
-
再起動時に cfn-hup デーモンが失敗する問題を修正しました。
-
Slurm 保護モードのブートストラップ失敗として INVALID_REG フラグを持つ動的ノードを検討してください。Slurm 登録に失敗した静的ノードは、 の後に既にブートストラップ失敗として扱われますnode_replacement_timeout 。
変更点の詳細については、GitHub に掲載されている aws-parallelcluster、aws-parallelcluster-cookbook、aws-parallelcluster-node の各パッケージの CHANGELOG ファイルを参照してください。
|
2023 年 5 月 22 日
|
AWS ParallelCluster バージョン 3.5.1 をリリース
|
AWS ParallelCluster バージョン 3.5.1 がリリースされました。
機能強化:
変更:
バグ修正:
変更点の詳細については、GitHub に掲載されている aws-parallelcluster、aws-parallelcluster-cookbook、aws-parallelcluster-node の各パッケージの CHANGELOG ファイルを参照してください。
|
2023 年 3 月 29 日
|
AWS ParallelCluster バージョン 3.5.0 をリリース
|
AWS ParallelCluster バージョン 3.5.0 がリリースされました。
機能強化:
-
AWS ParallelCluster UI を使用してクラスターにアクセスして管理します。
-
ワークロードで参照できる CloudFormation テンプレートにバージョニング AWS ParallelCluster ポリシーを追加します。
-
独自のコードで使用できる AWS ParallelCluster Python ライブラリを追加します。
-
コンピューティングノードのブートストラップ障害時のコンピューティングノードコンソール出力のロギングを Amazon CloudWatch に追加します。
-
クラスター作成失敗時の describe-cluster 出力にエラーコードと理由を含む [エラー] フィールドを追加しました。
-
サブプロセスモジュールの呼び出し中に悪意のある文字列が挿入されるのを防ぐためのバリデーターを追加します。
-
静的ノードのプロビジョニング中にクラスターの状態が PROTECTED に変わると、クラスターの作成に失敗します。
変更:
-
Slurm バージョンへのアップグレード 22.05.8 (バージョン から22.05.7 )
-
EFA インストーラーを 1.21.0 にアップグレードします。
-
Efa-driver: efa-2.1.1-1 (efa-2.1 から)
-
Efa-config: efa-config-1.12-1 (efa-config-1.11-1 から)
-
Efa-profile: efa-profile-1.5-1 (変更なし)
-
Libfabric-aws: libfabric-aws-1.16.1amzn3.0-1 (libfabric-aws-1.16.1 から)
-
Rdma-core: rdma-core-43.0-1 (rdma-core-43.0-2 から)
-
Open MPI: openmpi40-aws-4.1.4-3 (変更なし)
-
Slurm コントローラーログをより詳細にし、Slurm 省電力プラグインの追加ログ記録を有効にします。
バグ修正:
-
Slurm アカウンティングが有効になっている場合、クラスター名が 40 文字以下であることを確認して、クラスターデータベースの作成を修正します。
-
Amazon EC2 インスタンスのステータスチェックclustermgtd が失敗した場合、Slurm を介して再起動されたコンピューティングノードが置き換えられる の問題を修正しました。
-
ヘッドノードの IAM ポリシーが正しくないために、他のアカウントと共有されたキャパシティ予約を持つコンピューティングノードが起動できない問題を修正しました。
変更点の詳細については、GitHub に掲載されている aws-parallelcluster、aws-parallelcluster-cookbook、aws-parallelcluster-node、aws-parallelcluster-ui の各パッケージの CHANGELOG ファイルを参照してください。
|
2023 年 2 月 20 日
|
AWS ParallelCluster バージョン 3.4.1 をリリース
|
AWS ParallelCluster バージョン 3.4.1 がリリースされました。
バグ修正:
変更点の詳細については、GitHub に掲載されている aws-parallelcluster、aws-parallelcluster-cookbook、aws-parallelcluster-node の各パッケージの CHANGELOG ファイルを参照してください。
|
2023 年 1 月 13 日
|
AWS ParallelCluster バージョン 3.4.0 をリリース
|
AWS ParallelCluster バージョン 3.4.0 がリリースされました。
機能強化:
-
キャパシティの可用性を高めるため、複数のアベイラビリティーゾーンにまたがるノード起動のサポートを追加します。
-
キャパシティの可用性を高めるため、各キューに複数のサブネットを指定するサポートを追加します。
-
Iam / ResourcePrefix に新しい設定パラメータを追加して、 によって作成された IAM リソースのパスと名前のプレフィックスを指定します AWS ParallelCluster。
-
Lambda 関数で使用される Vpc 設定を指定するための新しい設定セクション DeploymentSettings / LambdaFunctionsVpcConfig AWS ParallelCluster を追加します。 LambdaFunctionsVpcConfig
-
クラスターの更新中にヘッドノードで実行するカスタムスクリプトを指定する機能が追加します。スクリプトは、Slurm をスケジューラとして使用するときに HeadNode / CustomActions / OnNodeUpdated で指定できます。
変更:
-
既存のファイルシステム用の Amazon EFS マウントターゲットの作成を削除します。
-
amazon-efs-utils を使用して EFS ファイルシステムをマウントします。EFS ファイルシステムは、転送中の暗号化と IAM 認定ユーザーを使用してマウントできます。
-
EFS の転送中暗号化をサポートするには、CentOS7 と Ubuntu に stunnel 5.67 をインストールします。
-
EFA インストーラーを 1.18.0 から 1.20.0 にアップグレードします。
-
Efa-driver: efa-2.1 (efa-1.16.0-1 から)
-
Efa-config: efa-config-1.11-1 (変更なし)
-
Efa-profile: efa-profile-1.5-1 (変更なし)
-
Libfabric-aws: libfabric-aws-1.16.1 (libfabric-aws-1.16.0~amzn4.0-1 から)
-
Rdma-core: rdma-core-43.0-2 (rdma-core-41.0-2 から)
-
Open MPI: openmpi40-aws-4.1.4-3 (openmpi40-aws-4.1.4-2 から)
-
Slurm をバージョン 22.05.5 から 22.05.7 にアップグレードします。
-
Python 3.9.16 および 3.7.16 にアップグレードします。(3.9.15 および 3.7.13 から)。
-
Slurm では22.05.7 、 IDLE+CLOUD+COMPLETING+POWER_DOWN+NOT_RESPONDING ステータスの動的ノードは異常とは見なされません。
変更点の詳細については、GitHub に掲載されている aws-parallelcluster、aws-parallelcluster-cookbook、aws-parallelcluster-node の各パッケージの CHANGELOG ファイルを参照してください。
|
2022 年 12 月 22 日
|
AWS ParallelCluster バージョン 3.3.1 をリリース
|
AWS ParallelCluster バージョン 3.3.1 がリリースされました。
変更:
バグ修正:
変更点の詳細については、GitHub に掲載されている aws-parallelcluster パッケージの CHANGELOG ファイルを参照してください。
|
2022 年 12 月 2 日
|
AWS ParallelCluster ドキュメントのみ hpc6id メモ
|
AWS ParallelCluster ドキュメントのみの更新
|
2022 年 12 月 2 日
|
AWS ParallelCluster バージョン 3.1.5 をリリース
|
AWS ParallelCluster バージョン 3.1.5 がリリースされました。
機能強化:
変更:
-
クラスターの更新のために AWS ParallelCluster API スタックParallelClusterUserRole で使用される lambda:UntagResource に lambda:ListTags と を追加します。
-
Intel MPI ライブラリを、バージョン 2021 アップデート 4 からバージョン 2021 アップデート 6 にアップグレードします。詳細については、「Intel® MPI Library 2021 Update 6」を参照してください。
-
NVIDIA ドライバーをバージョン 470.103.01 から 470.141.03 にアップグレードします。
-
NVIDIA ファブリックマネージャーをバージョン 470.103.01 から 470.141.03 にアップグレードします。
変更点の詳細については、GitHub に掲載されている aws-parallelcluster、aws-parallelcluster-cookbook、aws-parallelcluster-node の各パッケージの CHANGELOG ファイルを参照してください。
|
2022 年 11 月 16 日
|
AWS ParallelCluster バージョン 3.3.0 をリリース
|
AWS ParallelCluster バージョン 3.3.0 がリリースされました。
機能強化:
変更:
-
SlurmQueues / Networking / PlacementGroup / の動作を変更しますEnabled 。すべてのコンピューティングリソースに対して単一のマネージドプレースメントグループを作成するのではなく、コンピューティングリソースごとに固有のマネージドプレースメントグループを作成するようになりました。
-
任意の命名方法として SlurmQueues / Networking / PlacementGroup / Name のサポートを追加します。
-
タグ更新時にヘッドノードが置換されないように、ヘッドノードタグを起動テンプレートからインスタンス定義に移動します。
-
起動テンプレートで設定された CpuOptions ではなく、cloud-init によって実行されるスクリプトを通じてマルチスレッドを無効にします。
-
API インフラストラクチャ、API Docker コンテナ、クラスター Lambda リソースの Python をバージョン 3.9 に、NodeJS をバージョン 16 にアップグレードします。
-
aws-parallelcluster-batch-cli での Python 3.6 のサポートを終了します。
-
Slurm をバージョン 21.08.8-2 から 22.05.5 にアップグレードします。
-
NVIDIA ドライバーをバージョン 470.129.06 から 470.141.03 にアップグレードします。
-
NVIDIA ファブリックマネージャーをバージョン 470.129.06 から 470.141.03 にアップグレードします。
-
NVIDIA CUDA ツールキットをバージョン 11.7.1 にアップグレードします (from 11.4.4 )。
-
AWS ParallelCluster virtualenvs で使用される Python を から 3.7.13 にアップグレードします3.9.15 。
-
EFA インストーラーを 1.18.0 にアップグレードします。
-
Efa-driver: efa-1.16.0-1 (変更なし)
-
Efa-config: efa-config-1.11-1 (from
efa-config-1.10-1 )
-
Efa-profile: efa-profile-1.5-1 (変更なし)
-
Libfabric-aws: libfabric-aws-1.16.0~amzn4.0-1 (libfabric-aws-1.16.0~amzn2.0-1 から)。
-
Rdma-core: rdma-core-41.0-2 (rdma-core-37.0 から)
-
Open MPI: openmpi40-aws-4.1.4-2 (openmpi40-aws-4.1.1-2 から)
-
NICE DCV をバージョン 2022.0-12760 からバージョン 2022.1-13300 にアップグレードします。
-
Queues の SingleSubnetValidator の抑制を有効にします。
-
Epilog がまだ実行中である可能性があるため、ノードが COMPLETING の状態では DRAIN ノードを交換しません。
バグ修正:
-
誤ったフィルターが渡されたときに失敗するように、 AWS ParallelCluster ListClusterLogStreams コマンドの filters パラメータの検証を修正しました。
-
が他の SharedStorage / EfsSettings パラメータとともにFileSystemId 指定されている場合に検証に失敗するように、パラメータ SharedStorage / EfsSettings の検証を修正しました。以前は、FileSystemId は含まれていませんでした。
-
SharedStorage の順序を変更するときのクラスターの更新と、設定の他の変更を修正しました。
-
CloudWatch UpdateParallelClusterLambdaRole にログをアップロードするための AWS ParallelCluster API の修正。
-
クックブックが実行される前にパッケージをインストールするときに Cinc がローカル CA 証明書バンドルを使用しない問題を修正しました。
-
Build:UpdateOsPackages:Enabled:true が設定されている場合に、pcluster build-image を使用して ubuntu をアップグレードする際のハングを修正しました。
-
キーが重複している場合に失敗することによる YAML クラスター設定の解析を修正しました。
変更点の詳細については、GitHub に掲載されている aws-parallelcluster、aws-parallelcluster-cookbook、aws-parallelcluster-node の各パッケージの CHANGELOG ファイルを参照してください。
|
2022 年 11 月 2 日
|
AWS ParallelCluster ドキュメントのみの API リファレンスを追加しました。
|
AWS ParallelCluster ドキュメントのみの更新
|
2022 年 10 月 27 日
|
AWS ParallelCluster バージョン 3.2.1 をリリース
|
AWS ParallelCluster バージョン 3.2.1 がリリースされました。
機能強化:
変更:
-
NVIDIA ドライバーをバージョン 470.141.03 にアップグレードします。
-
NVIDIA ファブリックマネージャーをバージョン 470.141.03 にアップグレードします。
-
cron ジョブタスク man-db および mlocate を無効にします。これは、ノードのパフォーマンスに悪影響が及ぶ可能性があります。
-
Intel MPI ライブラリを 2021.6.0.602 にアップグレードします。
-
このセキュリティリスクに対応して Python を 3.7.10 から 3.7.13 にアップグレードします。
バグ修正:
変更点の詳細については、GitHub に掲載されている aws-parallelcluster、aws-parallelcluster-cookbook、aws-parallelcluster-node の各パッケージの CHANGELOG ファイルを参照してください。
|
2022 年 10 月 3 日
|
AWS ParallelCluster バージョン 3.2.0 をリリース
|
AWS ParallelCluster バージョン 3.2.0 がリリースされました。
機能強化:
変更:
-
EFA インストーラーをバージョン 1.17.2 にアップグレードしました。
-
EFA driver: efa-1.16.0-1
-
EFA 設定: efa-config-1.10-1
-
EFA プロファイル: efa-profile-1.5-1
-
Libfabric: libfabric-aws-1.16.0~amzn2.0-1
-
RDMA コア: rdma-core-41.0-2
-
Open MPI: openmpi40-aws-4.1.4-2
-
NICE DCV をバージョン 2022.0-12760 にアップグレードします。
-
NVIDIA ドライバーをバージョン 470.129.06 にアップグレードします。
-
NVIDIA ファブリックマネージャーをバージョン 470.129.06 にアップグレードします。
-
ルートボリュームと追加ボリュームの両方で、デフォルトの EBS ボリュームタイプを gp2 から gp3 に変更します。
-
以下によって作成された FSx for Lustre ファイルシステムの変更 AWS ParallelCluster:
-
既存の / を渡すtrue ときに PlacementGroup PlacementGroup / Enabled を に設定する必要はありませんId 。
-
PlacementGroup /Enabled が明示的に false に設定されている場合、PlacementGroup /Id を設定することはできません。
-
AWS ParallelClusterによって作成されたすべてのリソースに parallelcluster:cluster-name タグを追加します。
-
API AWS ParallelCluster スタックがクラスターの更新ParallelClusterUserRole に使用する lambda:ListTags と lambda:UntagResource を追加します。
-
設定パラメータ HeadNode /Imds /Secured が有効な場合、IMDS への IPv6 アクセスを root およびクラスター管理者ユーザーのみに制限します。
-
カスタム AMI では、ParallelCluster のデフォルトである 35 GiB の代わりに AMI のルートボリュームサイズを使用します。この値はクラスター設定ファイルで変更できます。
-
設定パラメータ Scheduling /SlurmQueues /ComputeResources /SpotPrice が最低限必要なスポットリクエストフルフィルメント価格を下回ると、コンピューティングフリートが自動的に無効になります。
-
更新中にセクションを追加または削除する場合に、変更セット内の requested_value および current_value の値を表示します。
-
複数のネットワークカードでインスタンスを設定する場合に、configure_nw_interface.sh との競合を避けるために、Deep Learning AMI で利用可能な aws-ubuntu-eni-helper サービスを無効にします。
-
Python 3.6 のサポートを終了します。
-
複数のネットワークカードでインスタンスを設定する場合、すべてのネットワークインターフェイスの MTU を 9001 に設定します。
-
コンピューティングノードの FQDN を設定する場合は、末尾のドットを削除します。
-
POWERING_DOWN で静的ノードを管理します。
-
ジョブがまだ実行中である可能性があるため、POWER_DOWN の動的ノードは置き換えられません。
-
クラスター設定で Scheduling パラメータが更新された場合にのみ、クラスター更新時に clustermgtd デーモンと slurmctld デーモンを再起動します。
-
slurmctld および slurmd systemd サービスファイルを更新します。
-
設定パラメータ HeadNode /Imds /Secured が有効な場合、IMDS への IPv6 アクセスを root およびクラスター管理者ユーザーのみに制限します。
-
Slurm 設定 AuthInfo=cred_expire=70 を設定して、ノードが使用できないときにキューに再キューされたジョブが再開するまで待たなければならない時間を短縮します。
-
サードパーティー製クックブックの依存関係をアップグレードします。
-
apt-7.4.2 (apt-7.4.0 から)
-
line-4.5.2 (line-4.0.1 から)
-
openssh-2.10.3 (openssh-2.9.1 から)
-
pyenv-3.5.1 (pyenv-3.4.2 から)
-
selinux-6.0.4 (selinux-3.1.1 から)
-
yum-7.4.0 (yum-6.1.1 から)
-
yum-epel-4.5.0 (yum-epel-4.1.2 から)
バグ修正:
-
カスタム AMI を構築するときに AWS ParallelCluster 検証ステップとテストステップをスキップするデフォルトの動作を修正しました。
-
computemgtd でのファイルハンドルのリークを修正しました。
-
起動したインスタンスが EC2 DescribeInstances レスポンスでまだ使用できないために散発的に即座に終了する原因となっていた競合状態を修正しました。
-
Arm プロセッサを使用したインスタンスタイプでの DisableSimultaneousMultithreading パラメータのサポートを修正しました。
-
以前のバージョンからアップグレードする際の AWS ParallelCluster API スタックの更新エラーを修正しました。ListImagePipelineImages アクションに使用されるリソースパターンを EcrImageDeletionLambdaRole に追加します。
-
FSx for Lustre ファイルシステムを作成するときに Amazon S3 からインポートまたはエクスポートするために必要なアクセス許可が欠落している AWS ParallelCluster API を修正しました。
変更点の詳細については、GitHub に掲載されている aws-parallelcluster、aws-parallelcluster-cookbook、aws-parallelcluster-node の各パッケージの CHANGELOG ファイルを参照してください。
|
2022 年 7 月 27 日
|
AWS ParallelCluster ドキュメントのみの更新
|
AWS ParallelCluster ドキュメントのみの更新。
新規セクション
セクション更新:
|
2022 年 7 月 6 日
|
AWS ParallelCluster バージョン 3.1.4 をリリース
|
AWS ParallelCluster バージョン 3.1.4 がリリースされました。
機能強化:
変更:
-
Slurm をバージョン 21.08.8-2 へアップグレードします。
-
JWT サポート付きで Slurm をビルドします。
-
既存の / を渡すtrue ときに PlacementGroup PlacementGroup / Enabled を に設定する必要はありませんId 。
-
クラスター作成とイメージ作成のために ParallelCluster API スタックに使用される ParallelClusterUserRole に lambda:TagResource を追加します。
バグ修正:
-
export-cluster-logs コマンドを --filters オプションとともに使用したときに、クラスターのログをエクスポートする機能を修正しました。
-
/home 共有ディレクトリを使用してMulti-node-Parallelジョブの実行を調整するように AWS バッチ Docker エントリポイントを修正しました。
-
Slurm の異常な静的ノードをダウンに設定する際にノードアドレスをリセットし、容量不足で障害が発生した静的ノードをブートストラップ障害ノードとして扱うことを回避します。
変更点の詳細については、GitHub に掲載されている aws-parallelcluster、aws-parallelcluster-cookbook、aws-parallelcluster-node の各パッケージの CHANGELOG ファイルを参照してください。
|
2022 年 5 月 16 日
|
AWS ParallelCluster バージョン 3.1.3 をリリース
|
AWS ParallelCluster バージョン 3.1.3 がリリースされました。
機能強化:
-
SSH キーの作成は、SSH ログイン時、別のユーザーへの切り替え時、別のユーザーとしてコマンドを実行する場合など、ホームディレクトリの作成と同時に実行します。
-
DirectoryService / DomainName 設定パラメータに FQDN と LDAP 識別名の両方のサポートを追加します。新しいバリデーターは両方の構文をチェックするようになりました。
-
ヘッドノードにデプロイされた新しい update_directory_service_password.sh スクリプトは、SSSD 設定の Active Directory パスワードの手動更新をサポートします。パスワードは、クラスター設定から AWS Secrets Manager によって取得されます。
-
デフォルト VPC のない環境に API インフラストラクチャをデプロイするためのサポートを追加します。
変更:
バグ修正:
変更点の詳細については、GitHub の aws-parallelcluster および aws-parallelcluster-cookbook パッケージの CHANGELOG ファイルを参照してください。
|
2022 年 4 月 20 日
|
AWS ParallelCluster バージョン 3.1.2 をリリース
|
AWS ParallelCluster バージョン 3.1.2 がリリースされました。
変更:
バグ修正:
変更点の詳細については、GitHub の aws-parallelcluster パッケージの CHANGELOG ファイルを参照してください。
|
2022 年 3 月 2 日
|
AWS ParallelCluster バージョン 3.1.1 をリリース
|
AWS ParallelCluster バージョン 3.1.1 がリリースされました。
-
AWS Directory Service で管理される Active Directory (AD) ドメインと統合することで、複数のユーザークラスター環境のサポートを追加します。
-
クラスター設定ファイルに UseEc2Hostnames のサポートを追加します。true に設定すると、コンピューティングノードに Amazon EC2 のデフォルトホスト名 (例:ip-1-2-3-4) を使用します。
-
インターネットにアクセスできないサブネットでのクラスター作成のサポートを追加します。
-
キューごとに複数のコンピューティングインスタンスタイプのサポートを追加します。
-
NVIDIA カードを搭載した ARM インスタンス上の Slurm による GPU スケジューリングのサポートを追加します。
-
(-n )cluster-name 、 ()region 、-r image-id ()、/ image-configuration (-i ) cluster-configuration の省略フラグ-c を AWS ParallelCluster CLI に追加します。
-
FSx for Lustre AutoImportPolicy パラメータNEW_CHANGED_DELETED のサポートを追加します。
-
コンピュートノードが使用する EC2 LaunchTemplates リソースに parallelcluster:compute-resource-name タグを追加します。
-
一部のヘッドノードやキューに SecurityGroups パラメータが指定されている場合に、カスタムセキュリティグループからのインバウンド接続を許可するように、クラスター内に作成されるセキュリティグループを改善します。
-
ARM 用の NVIDIA ドライバーと CUDA ライブラリをインストールします。
変更:
-
Slurm をバージョン 20.11.8 から 21.08.5 にアップグレードします。
-
Slurm プラグインをバージョン 20.11 から 21.08 にアップグレードします。
-
NICE DCV をバージョン 2021.1-10851 からバージョン 2021.3-11591 にアップグレードします。
-
NVIDIA ドライバーをバージョン 470.57.02 から 470.103.01 にアップグレードします。
-
NVIDIA ファブリックマネージャーをバージョン 470.57.02 から 470.103.01 にアップグレードします。
-
CUDA をバージョン 11.4.0 から 11.4.4 にアップグレードします。
-
Intel MPI を、バージョン 2019 アップデート 8 からバージョン 2021 アップデート 4 に更新しました。詳細については、「Intel® MPI Library 2021 Update 4」を参照してください。
-
PMIx をバージョン 3.1.5 から 3.2.3 にアップグレードします。
-
障害が発生したコンピューティングノードの /home/logs/compute へのダンプを削除します。コンピューティングノードのログファイルは、CloudWatch と Amazon EC2 コンソールのログにあります。
-
SlurmQueues および ComputeResources の長さバリデーターを抑制する可能性を有効にします。
-
Amazon Linux 2 では、インスタンス起動時のパッケージ更新を無効にします。
-
AWS ParallelCluster
カスタムイメージを構築するときに、Amazon EC2 ImageBuilder の拡張イメージメタデータを無効にしました。
-
cloud-init データソースを明示的に EC2 に設定します。これにより、Ubuntu および CentOS プラットフォームの起動時間を節約できます。
-
コンピューティングフリート起動テンプレート名には、インスタンスタイプではなくコンピューティングリソース名を使用します。
-
pcluster CLI 出力に不要なテキストが含まれないように、stderr と stdout を CLI ログファイルにリダイレクトします。
-
configure/install レシピを、メインのクックブックから呼び出される別々のクックブックに移動します。既存のエントリポイントは維持され、下位互換性があります。
-
クラスター作成時にインターネットに接続しないように、AMI ビルド時に Intel HPC プラットフォームの依存関係をダウンロードします。
-
Slurm ノードを設定するときに、コンピューティングリソース名から - を削除しないでください。
-
NVIDIA ドライバーがインストールされていない場合は Slurm で GPU を設定しないでください。
-
BatchUserRole の ecs:ListContainerInstances 権限を修正しました。
-
以前は None プレフィックスにエクスポートされていた、プレフィックスが指定されていない場合のクラスターログのエクスポートを修正しました。
-
クラスターの更新に失敗した場合にロールバックが実行されない問題を修正しました。
-
BatchUserRole の ecs:ListContainerInstances 権限を修正しました。
-
サポート対象外の KmsKeyId が指定された場合にエラーを発生させることで、HeadNode の RootVolume スキーマを修正しました。
-
CloudWatch ダッシュボードに表示される Amazon FSx の欠落しているメトリクスを修正しました。
-
EfaSecurityGroupValidator を修正しました。以前は、カスタムセキュリティグループが提供され、EFA が有効になっている場合、誤った障害が発生する可能性がありました。
変更点の詳細については、GitHub に掲載されている aws-parallelcluster、aws-parallelcluster-cookbook、aws-parallelcluster-node の各パッケージの CHANGELOG ファイルを参照してください。
|
2022 年 2 月 10 日
|
AWS ParallelCluster バージョン 3.0.3 のリリース
|
AWS ParallelCluster バージョン 3.0.3 がリリースされました。
変更点の詳細については、GitHub の aws-parallelcluster および aws-parallelcluster-cookbook パッケージの CHANGELOG ファイルを参照してください。
|
2022 年 1 月 17 日
|
AWS ParallelCluster バージョン 3.0.2 をリリース
|
AWS ParallelCluster バージョン 3.0.2 がリリースされました。
Elastic Fabric Adapter インストーラを 1.14.1 にアップグレードする
-
EFA 設定: efa-config-1.9-1 (efa-config-1.9 から)
-
EFA プロファイル:efa-profile-1.5-1 (efa-profile-1.5 から)
-
EFA カーネルモジュール: efa-1.14.2 (efa-1.13.0 から)
-
RDMA コア: rdma-core-37.0 (rdma-core-35 から)
-
Libfabric: libfabric-1.13.2 (libfabric-1.13.0 から)
-
Open MPI: openmpi40-aws-4.1.1-2 (変更なし)
GPUDirect RDMA は、インスタンスタイプでサポートされていれば常に有効です。GdrSupport 構成オプションは効果がありません。
変更点の詳細については、GitHub に掲載されている aws-parallelcluster、aws-parallelcluster-cookbook、aws-parallelcluster-node の各パッケージの CHANGELOG ファイルを参照してください。
|
2021 年 11 月 5 日
|
AWS ParallelCluster バージョン 3.0.1 をリリース
|
AWS ParallelCluster バージョン 3.0.1 がリリースされました。
クラスター構成移行ツール
ヘッドノードを停止できます
~/.aws/config ファイルから読み取られたデフォルトの AWS リージョン
変更点の詳細については、GitHub に掲載されている aws-parallelcluster、aws-parallelcluster-cookbook、aws-parallelcluster-node の各パッケージの CHANGELOG ファイルを参照してください。
|
2021 年 10 月 27 日
|
AWS ParallelCluster バージョン 3.0.0 をリリース
|
AWS ParallelCluster バージョン 3.0.0 がリリースされました。
Amazon API Gateway によるクラスター管理のサポート
-
お客様は、Amazon API Gateway を使用して、HTTP エンドポイントを通じてクラスターを管理およびデプロイできるようになりました。これにより、スクリプトやイベントドリブンのワークフローに新たな可能性が生まれます。
AWS ParallelCluster コマンドラインインターフェイス (CLI) も、この API との互換性のために再設計され、新しい JSON 出力オプションが含まれています。この新機能により、お客様は同様のビルディングブロック機能を CLI でも実装できるようになります。
カスタム AMI 作成の改善
変更点の詳細については、GitHub に掲載されている aws-parallelcluster、aws-parallelcluster-cookbook、aws-parallelcluster-node の各パッケージの CHANGELOG ファイルを参照してください。
|
2021 年 9 月 10 日
|