在 AWS PCS 中建立叢集 - AWS PCS

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 AWS PCS 中建立叢集

本主題提供可用選項的概觀,並說明在 AWS 平行運算服務 (AWS PCS) 中建立叢集時應考量的事項。如果這是您第一次建立 AWS PCS 叢集,建議您遵循 平行 AWS 運算服務入門。本教學課程可協助您建立運作中的 HPC 系統,而無需擴展至所有可用的選項和系統架構。

注意

建立叢集之後,您可以修改許多組態設定,而無需重建基礎設施。如需詳細資訊,請參閱在 AWS PCS 中更新叢集

注意

您可以設定自訂 Slurm 設定,以實作進階排程政策和資源管理。如需詳細資訊,請參閱在 AWS PCS 中設定自訂 Slurm 設定

先決條件

建立 AWS PCS 叢集

您可以使用 AWS Management Console 或 AWS CLI 來建立叢集。

AWS Management Console
建立叢集
  1. 在 https://https://console.aws.amazon.com/pcs/home#/clusters 開啟 AWS PCS 主控台,然後選擇建立叢集

  2. 叢集設定區段中,輸入下列欄位:

    • 叢集名稱 – 叢集的名稱。此名稱僅能使用英數字元 (區分大小寫) 和連字號。它必須以字母字元開頭,且長度不可超過 40 個字元。名稱在 中必須是唯一的 AWS 帳戶 , AWS 區域 且您要在其中建立叢集。

    • 排程器 – 選擇排程器和版本。如需詳細資訊,請參閱AWS PCS 中的 Slurm 版本

    • 控制器大小 – 選擇控制器的大小。這決定 AWS PCS 叢集可以管理多少並行任務和運算節點。您只能在建立叢集時設定控制器大小。如需調整大小的詳細資訊,請參閱 AWS PCS 中的叢集大小

  3. 聯網區段中,選取下列欄位的值:

    • 網路類型 – 選擇叢集的 IP 地址類型。您的叢集可以使用 IPv4 或 IPv6,但不能同時使用兩者。VPC 和子網路必須使用相同的網路地址類型。您用於每個子網路的 IP 地址區塊必須至少有 1 個可用地址。 AWS 會保留每個子網路中的部分地址。如需詳細資訊,請參閱《Amazon VPC 使用者指南》中的子網路 CIDR 區塊

    • VPC – 選擇符合 AWS PCS 要求的現有 VPC。如需詳細資訊,請參閱AWS PCS VPC 和子網路需求和考量事項。建立叢集之後,您無法變更其 VPC。如果未列出VPCs,您必須先建立一個 VPC。

    • 子網路 – 列出所選 VPC 中的所有可用子網路。選擇符合 AWS PCS 子網路需求的子網路。如需詳細資訊,請參閱AWS PCS VPC 和子網路需求和考量事項。我們建議您選取私有子網路,以避免您的排程器端點暴露至公有網際網路。

    • 安全群組 – 指定您希望 AWS PCS 與其為叢集建立的網路介面建立關聯的安全群組 (多個)。您必須選取至少一個安全群組,以允許叢集及其運算節點之間的通訊。您可以選取快速建立安全群組,讓 AWS PCS 在您選取的 VPC 中使用必要的組態建立安全群組,或選取現有的安全群組。如需詳細資訊,請參閱安全群組需求和考量事項

  4. (選用) 在 Slurm 會計組態區段中,您可以啟用 Slurm 會計並設定會計參數。如需詳細資訊,請參閱AWS PCS 中的 Slurm 會計

  5. (選用) 在 Slurm 組態區段中,您可以新增參數名稱和值對來設定其他 Slurm 設定。如需支援參數的完整清單,請參閱 AWS PCS 叢集的自訂 Slurm 設定

  6. (選用) 在標籤下,將任何標籤新增至 AWS PCS 叢集。

  7. 選擇 建立叢集 AWS PCS 建立叢集Creating時,狀態欄位會顯示 。此程序需要幾分鐘的時間。

重要

每個 AWS 區域 只能有一個Creating處於 狀態的叢集 AWS 帳戶。 AWS 如果您嘗試建立叢集時已有叢集處於 Creating 狀態,PCS 會傳回錯誤。

AWS CLI
建立叢集
  1. 使用下列命令建立您的叢集。執行命令之前,請執行下列替換:

    • 區域取代為您要 AWS 區域 在其中建立叢集的 ID,例如 us-east-1

    • 以叢集的名稱取代 my-cluster。此名稱僅能使用英數字元 (區分大小寫) 和連字號。它必須以字母字元開頭,且長度不可超過 40 個字元。名稱在建立叢集的 AWS 區域 和 AWS 帳戶 中必須是唯一的。

    • 24.11 取代為任何支援的 Slurm 版本。

      注意

      AWS PCS 目前支援 Slurm 24.11 和 24.05。

    • SMALL 取代為任何支援的叢集大小。這會決定 AWS PCS 叢集可以管理多少並行任務和運算節點。只有在建立叢集時才能設定。如需調整大小的詳細資訊,請參閱 AWS PCS 中的叢集大小

    • 將 的值取代subnetIds為您自己的值。我們建議您選取私有子網路,以避免您的排程器端點暴露至公有網際網路。

    • 指定securityGroupIds您希望 AWS PCS 與其為叢集建立的網路介面建立關聯的 。安全群組必須與叢集位於相同的 VPC 中。您必須選取至少一個安全群組,以允許叢集及其運算節點之間的通訊。如需詳細資訊,請參閱安全群組需求和考量事項

    aws pcs create-cluster --region region \ --cluster-name my-cluster \ --scheduler type=SLURM,version=24.11 \ --size SMALL \ --networking subnetIds=subnet-ExampleId1,securityGroupIds=sg-ExampleId1
    • 若要使用 IPv6,請將 networkType=IPV6新增至--networking組態。

      --networking networkType=IPV6,subnetIds=subnet-ExampleId1,securityGroupIds=sg-ExampleId1
    • 或者,您可以新增 --slurm-configration選項來自訂 Slurm 行為,並指定 Slurm 組態選項。下列範例會將縮減閒置時間設定為 60 分鐘 (3600 秒),啟用 Slurm 會計,並將slurm.conf設定指定為 的值slurmCustomSettings。如需詳細資訊,請參閱AWS PCS 中的 Slurm 會計

      注意

      Slurm 24.11 或更新版本支援會計。

      aws pcs create-cluster --region region \ --cluster-name my-cluster \ --scheduler type=SLURM,version=24.11 \ --size SMALL \ --networking subnetIds=subnet-ExampleId1,securityGroupIds=sg-ExampleId1 --slurm-configuration scaleDownIdleTimeInSeconds=3600,accounting='{mode=STANDARD}',slurmCustomSettings='[{parameterName=SelectTypeParameters,parameterValue=CR_CPU_Memory}]'
  2. 佈建叢集可能需要幾分鐘的時間。您可以使用下列命令來查詢叢集的狀態。在叢集的狀態欄位為 之前,請勿繼續建立佇列或運算節點群組ACTIVE

    aws pcs get-cluster --region region --cluster-identifier my-cluster
重要

每個 AWS 區域 只能有一個Creating處於 狀態的叢集 AWS 帳戶。 AWS 如果您嘗試建立叢集時已有叢集處於 Creating 狀態,PCS 會傳回錯誤。

您叢集的建議後續步驟
  • 新增運算節點群組。

  • 新增佇列。

  • 啟用記錄。