本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在 AWS PCS 中建立叢集
本主題提供可用選項的概觀,並說明在 AWS 平行運算服務 (AWS PCS) 中建立叢集時應考量的事項。如果這是您第一次建立 AWS PCS 叢集,建議您遵循 平行 AWS 運算服務入門。本教學課程可協助您建立運作中的 HPC 系統,而無需擴展至所有可用的選項和系統架構。
先決條件
建立 AWS PCS 叢集
您可以使用 AWS Management Console 或 AWS CLI 來建立叢集。
- AWS Management Console
-
建立叢集
-
在 https://https://console.aws.amazon.com/pcs/home#/clusters 開啟 AWS PCS 主控台,然後選擇建立叢集。
-
在叢集設定區段中,輸入下列欄位:
-
叢集名稱 – 叢集的名稱。此名稱僅能使用英數字元 (區分大小寫) 和連字號。它必須以字母字元開頭,且長度不可超過 40 個字元。名稱在 中必須是唯一的 AWS 帳戶 , AWS 區域 且您要在其中建立叢集。
-
排程器 – 選擇排程器和版本。如需詳細資訊,請參閱AWS PCS 中的 Slurm 版本。
-
控制器大小 – 選擇控制器的大小。這決定 AWS PCS 叢集可以管理多少並行任務和運算節點。您只能在建立叢集時設定控制器大小。如需調整大小的詳細資訊,請參閱 AWS PCS 中的叢集大小。
-
在聯網區段中,選取下列欄位的值:
-
網路類型 – 選擇叢集的 IP 地址類型。您的叢集可以使用 IPv4 或 IPv6,但不能同時使用兩者。VPC 和子網路必須使用相同的網路地址類型。您用於每個子網路的 IP 地址區塊必須至少有 1 個可用地址。 AWS 會保留每個子網路中的部分地址。如需詳細資訊,請參閱《Amazon VPC 使用者指南》中的子網路 CIDR 區塊。
-
VPC – 選擇符合 AWS PCS 要求的現有 VPC。如需詳細資訊,請參閱AWS PCS VPC 和子網路需求和考量事項。建立叢集之後,您無法變更其 VPC。如果未列出VPCs,您必須先建立一個 VPC。
-
子網路 – 列出所選 VPC 中的所有可用子網路。選擇符合 AWS PCS 子網路需求的子網路。如需詳細資訊,請參閱AWS PCS VPC 和子網路需求和考量事項。我們建議您選取私有子網路,以避免您的排程器端點暴露至公有網際網路。
-
安全群組 – 指定您希望 AWS PCS 與其為叢集建立的網路介面建立關聯的安全群組 (多個)。您必須選取至少一個安全群組,以允許叢集及其運算節點之間的通訊。您可以選取快速建立安全群組,讓 AWS PCS 在您選取的 VPC 中使用必要的組態建立安全群組,或選取現有的安全群組。如需詳細資訊,請參閱安全群組需求和考量事項。
-
(選用) 在 Slurm 會計組態區段中,您可以啟用 Slurm 會計並設定會計參數。如需詳細資訊,請參閱AWS PCS 中的 Slurm 會計。
-
(選用) 在 Slurm 組態區段中,您可以新增參數名稱和值對來設定其他 Slurm 設定。如需支援參數的完整清單,請參閱 AWS PCS 叢集的自訂 Slurm 設定。
-
(選用) 在標籤下,將任何標籤新增至 AWS PCS 叢集。
-
選擇 建立叢集。當 AWS PCS 建立叢集Creating時,狀態欄位會顯示 。此程序需要幾分鐘的時間。
每個 AWS 區域 只能有一個Creating處於 狀態的叢集 AWS 帳戶。 AWS 如果您嘗試建立叢集時已有叢集處於 Creating 狀態,PCS 會傳回錯誤。
- AWS CLI
-
建立叢集
-
使用下列命令建立您的叢集。執行命令之前,請執行下列替換:
-
將區域取代為您要 AWS 區域 在其中建立叢集的 ID,例如 us-east-1。
-
以叢集的名稱取代 my-cluster。此名稱僅能使用英數字元 (區分大小寫) 和連字號。它必須以字母字元開頭,且長度不可超過 40 個字元。名稱在建立叢集的 AWS 區域 和 AWS 帳戶 中必須是唯一的。
-
將 24.11 取代為任何支援的 Slurm 版本。
AWS PCS 目前支援 Slurm 24.11 和 24.05。
-
將 SMALL 取代為任何支援的叢集大小。這會決定 AWS PCS 叢集可以管理多少並行任務和運算節點。只有在建立叢集時才能設定。如需調整大小的詳細資訊,請參閱 AWS PCS 中的叢集大小。
-
將 的值取代subnetIds為您自己的值。我們建議您選取私有子網路,以避免您的排程器端點暴露至公有網際網路。
-
指定securityGroupIds您希望 AWS PCS 與其為叢集建立的網路介面建立關聯的 。安全群組必須與叢集位於相同的 VPC 中。您必須選取至少一個安全群組,以允許叢集及其運算節點之間的通訊。如需詳細資訊,請參閱安全群組需求和考量事項。
aws pcs create-cluster --region region \
--cluster-name my-cluster \
--scheduler type=SLURM,version=24.11 \
--size SMALL \
--networking subnetIds=subnet-ExampleId1,securityGroupIds=sg-ExampleId1
-
若要使用 IPv6,請將 networkType=IPV6新增至--networking組態。
--networking networkType=IPV6,subnetIds=subnet-ExampleId1,securityGroupIds=sg-ExampleId1
-
或者,您可以新增 --slurm-configration選項來自訂 Slurm 行為,並指定 Slurm 組態選項。下列範例會將縮減閒置時間設定為 60 分鐘 (3600 秒),啟用 Slurm 會計,並將slurm.conf設定指定為 的值slurmCustomSettings。如需詳細資訊,請參閱AWS PCS 中的 Slurm 會計。
aws pcs create-cluster --region region \
--cluster-name my-cluster \
--scheduler type=SLURM,version=24.11 \
--size SMALL \
--networking subnetIds=subnet-ExampleId1,securityGroupIds=sg-ExampleId1
--slurm-configuration scaleDownIdleTimeInSeconds=3600,accounting='{mode=STANDARD}',slurmCustomSettings='[{parameterName=SelectTypeParameters,parameterValue=CR_CPU_Memory}]'
-
佈建叢集可能需要幾分鐘的時間。您可以使用下列命令來查詢叢集的狀態。在叢集的狀態欄位為 之前,請勿繼續建立佇列或運算節點群組ACTIVE。
aws pcs get-cluster --region region --cluster-identifier my-cluster
每個 AWS 區域 只能有一個Creating處於 狀態的叢集 AWS 帳戶。 AWS 如果您嘗試建立叢集時已有叢集處於 Creating 狀態,PCS 會傳回錯誤。