本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 SageMaker HyperPod 的先決條件
在開始使用 SageMaker HyperPod 之前,以下各節會逐步引導您完成先決條件。
主題
SageMaker HyperPod 配額
您可以根據 AWS 帳戶中叢集用量的配額來建立 SageMaker HyperPod 叢集。
重要
若要進一步了解 SageMaker HyperPod 定價,請參閱 SageMaker HyperPod 定價和 Amazon SageMaker 定價
使用 檢視 Amazon SageMaker HyperPod 配額 AWS Management Console
查詢用於 SageMaker HyperPod 的叢集用量配額的預設和套用值,也稱為限制。
-
在左側導覽窗格中,選擇 AWS 服務。
-
從AWS 服務清單中,搜尋並選取 Amazon SageMaker AI。
-
在服務配額清單中,您可以看到服務配額名稱、套用值 (如果有的話)、 AWS 預設配額,以及配額值是否可以調整。
-
在搜尋列中,輸入叢集用量。這會顯示叢集用量的配額、套用的配額和預設配額。
使用 請求提高 Amazon SageMaker HyperPod 配額 AWS Management Console
在帳戶或資源層級增加您的配額。
-
若要增加叢集用量的執行個體配額,請選取您要增加的配額。
-
如果配額可調整,您可以根據調整能力欄中列出的值,在帳戶層級或資源層級請求增加配額。
-
針對增加配額值,輸入新值。新值必須大於目前的值。
-
選擇請求。
-
若要在主控台中檢視任何待處理或最近已解決的請求,請從服務的詳細資訊頁面導覽至請求歷史記錄索引標籤,或從導覽窗格中選擇儀表板。對於擱置的請求,請選擇請求狀態以開啟請求回條。請求的初始狀態為 Pending (待定)。狀態變更為請求的配額後,您會看到案例編號 AWS 支援。選擇案例編號,為請求開啟票證。
若要進一步了解如何請求提高配額,請參閱 Service Quotas 使用者指南中的請求提高配額。 AWS Service Quotas
使用自訂 Amazon VPC 設定 SageMaker HyperPod
若要使用自訂 Amazon VPC 設定 SageMaker HyperPod 叢集,請檢閱下列先決條件。
注意
Amazon EKS 協同運作必須使用 VPC 組態。對於 Slurm 協同運作,VPC 設定是選用的。
-
在建立具有自訂 VPC 的 SageMaker HyperPod 叢集 AWS 帳戶 之前,請先驗證 中的彈性網路介面 (ENI) 容量。ENI 限制由 Amazon EC2 控制,並因 而異 AWS 區域。SageMaker HyperPod 無法自動請求增加配額。
若要驗證您目前的 ENI 配額:
-
在管理配額區段中,使用 AWS 服務下拉式清單來搜尋 VPC。
-
選擇 以檢視 Amazon Virtual Private Cloud (Amazon VPC) 的配額。
-
尋找每個區域的服務配額網路介面或配額代碼
L-DF5E4CA3
。
如果您目前的 ENI 限制不足以滿足您的 SageMaker HyperPod 叢集需求,請請求增加配額。事先確保足夠的 ENI 容量有助於防止叢集部署失敗。
-
使用自訂 VPC 將 SageMaker HyperPod 叢集與 AWS 資源連線時,請在叢集建立期間提供 VPC 名稱、ID、 AWS 區域子網路 IDs 和安全群組 IDs。
注意
當您的 Amazon VPC 和子網路使用
OverrideVPCConfig
屬性在叢集VPCConfig
的 或執行個體群組層級支援 IPv6 時ClusterInstanceGroupSpecification
,網路通訊會根據叢集協同運作平台而有所不同:-
Slurm 協調叢集會自動設定具有雙 IPv6 和 IPv4 地址的節點,允許立即 IPv6 網路通訊。除了
VPCConfig
IPv6 設定之外,不需要額外的組態。 -
在 EKS 協調叢集中,節點會收到雙堆疊定址,但 Pod 只能在 Amazon EKS 叢集明確啟用 IPv6 時使用 IPv6。 IPv6-enabled 您必須建立新的 IPv6 Amazon EKS 叢集 - 現有的 IPv4 Amazon EKS 叢集無法轉換為 IPv6。如需部署 IPv6 Amazon EKS 叢集的詳細資訊,請參閱 Amazon EKS IPv6 叢集部署。
IPv6 組態的其他資源:
-
如需將 IPv6 支援新增至 VPC 的詳細資訊,請參閱 VPC 的 IPv6 支援。
-
如需建立新的 IPv6-compatible VPC 的相關資訊,請參閱Amazon VPC 建立指南。
-
若要使用自訂 Amazon VPC 設定 SageMaker HyperPod,請參閱 SageMaker HyperPod 的自訂 Amazon VPC 設定。
-
-
確定所有資源都部署在與 SageMaker HyperPod 叢集 AWS 區域 相同的 中。設定安全群組規則,以允許 VPC 內的資源間通訊。例如,在 中建立 VPC 時
us-west-2
,跨一或多個可用區域佈建子網路 (例如us-west-2a
或us-west-2b
),並建立允許群組內流量的安全群組。注意
SageMaker HyperPod 支援多可用區域部署。如需詳細資訊,請參閱在多個AZs設定 SageMaker HyperPod 叢集。
-
透過建立 VPC 端點,為 VPC 部署的 SageMaker HyperPod 執行個體群組建立 Amazon Simple Storage Service (Amazon S3) 連線。如果沒有網際網路存取,執行個體群組就無法儲存或擷取生命週期指令碼、訓練資料或模型成品。建議您建立自訂 IAM 政策,限制 Amazon S3 儲存貯體對私有 VPC 的存取。如需詳細資訊,請參閱《 AWS PrivateLink 指南》中的 Amazon S3 端點。
-
對於使用啟用 Elastic Fabric Adapter (EFA) 的執行個體的 HyperPod 叢集,請設定安全群組,以允許進出安全群組本身的所有傳入和傳出流量。具體而言,請避免將
0.0.0.0/0
用於傳出規則,因為這可能會導致 EFA 運作狀態檢查失敗。如需 EFA 安全群組準備準則的詳細資訊,請參閱《Amazon EC2 使用者指南》中的步驟 1:準備啟用 EFA 的安全群組。 -
建立 HyperPod 叢集之前,請仔細考慮子網路的無類別網域間路由 (CIDR) 區塊大小。
-
子網路 CIDR 區塊大小無法在建立後變更。當您使用 P5 等大型加速執行個體時,這尤其重要。如果區塊大小不足,您必須在擴展時重新建立叢集。
-
選擇適當的子網路 CIDR 區塊大小時,請考慮下列因素:您的執行個體類型、預期的執行個體數量,以及每個執行個體使用的 IP 地址數量。
-
對於 Slurm 協調叢集,每個 P5 執行個體可以建立 32 個 IP 地址 (每個網路卡一個)。對於 EKS 協同運作的叢集,每個 P5 執行個體可以建立 81 個 IP 地址 (50 個來自主卡,加上其餘 31 張卡片各一個)。如需詳細規格,請參閱《Amazon EC2 執行個體類型開發人員指南》中的網路規格。
-
如需指定子網路 CIDR 區塊大小的 CloudFormation 範本範例,請參閱 awsome-distributed-training 儲存庫
中的 HyperPod Slurm 範本 和 HyperPod Amazon EKS 範本 。
-
在多個AZs設定 SageMaker HyperPod 叢集
您可以跨多個可用區域 (AZs) 設定 SageMaker HyperPod 叢集,以提高可靠性和可用性。
注意
Elastic Fabric Adapter (EFA) 流量無法跨 AZs 或 VPCs。這不適用於來自 EFA 介面 ENA 裝置的一般 IP 流量。如需詳細資訊,請參閱 EFA 限制。
-
預設行為
HyperPod 會將所有叢集執行個體部署在單一可用區域中。VPC 組態會決定部署 AZ:
-
對於 Slurm 協調叢集,VPC 組態是選用的。未提供 VPC 組態時,HyperPod 會從平台 VPC 預設為一個子網路。
-
對於 EKS 協調叢集,需要 VPC 組態。
-
對於 Slurm 和 EKS 協調器,
VpcConfig
提供 時,HyperPod 會從提供的子網路清單中選擇VpcConfig
子網路。所有執行個體群組都會繼承子網路的 AZ。
注意
建立叢集後,您就無法修改其
VpcConfig
設定。若要進一步了解如何為 HyperPod 叢集設定 VPCs,請參閱上一節:使用自訂 Amazon VPC 設定 SageMaker HyperPod 。
-
-
多可用區組態
您可以在建立叢集或將新執行個體群組新增至現有叢集時,跨多個AZs設定 HyperPod 叢集。若要設定多可用區域部署,您可以透過為叢集中的個別執行個體群組指定可能跨不同可用區域的不同子網路和安全群組,來覆寫叢集的預設 VPC 設定。
SageMaker HyperPod API 使用者可以在使用
CreateCluster
或UpdateCluster
APIs 時,使用 ClusterInstanceGroupSpecification 中的OverrideVpcConfig
屬性。OverrideVpcConfig
欄位:-
建立執行個體群組後無法修改。
-
為選用。如果未指定,則會
VpcConfig
使用叢集層級做為預設。 -
對於 Slurm 協調叢集, 只能在
VpcConfig
提供叢集層級時指定。如果叢集層級未指定VpcConfig
,則OverrideVpcConfig
無法用於任何執行個體群組。 -
包含兩個必要欄位:
-
Subnets
- 接受 1 到 16 IDs -
SecurityGroupIds
- 接受 1 到 5 個安全群組 IDs
-
如需使用 SageMaker HyperPod 主控台 UI 或 建立或更新 SageMaker HyperPod 叢集的詳細資訊 AWS CLI:
-
Slurm 協同運作:請參閱操作 Slurm 協同運作的 HyperPod 叢集。
-
EKS 協同運作。請參閱操作 EKS 協調的 HyperPod 叢集。
-
注意
跨多個 AZs 執行工作負載時,請注意 AZs 之間的網路通訊會帶來額外的延遲。在設計延遲敏感型應用程式時,請考慮此影響。
設定 AWS Systems Manager 和執行為叢集使用者存取控制
SageMaker HyperPod DLAMI 隨附開箱即用的 AWS Systems Manager
注意
授予使用者對 HyperPod 叢集節點的存取權,可讓使用者在節點上安裝和操作使用者受管軟體。確保您維護使用者最低權限許可的原則。
在 AWS 帳戶中啟用執行身分
身為 AWS 帳戶管理員或雲端管理員,您可以使用 SSM 中的執行身分功能,在 IAM 角色或使用者層級管理對 SageMaker HyperPod 叢集的存取。 https://docs.aws.amazon.com/systems-manager/latest/userguide/session-preferences-run-as.html使用此功能,您可以使用與 IAM 角色或使用者相關聯的作業系統使用者來啟動每個 SSM 工作階段。
若要在 AWS 帳戶中啟用執行身分,請遵循開啟 Linux 和 macOS 受管節點的執行身分支援中的步驟。如果您已在叢集中建立作業系統使用者,請確定您已依照步驟 5 中macOS開啟執行身分支援 Linux 和 macOS 受管節點的步驟 2 中的選項 2 指示,將他們標記為 IAM 角色或使用者。
(選用) 使用 Amazon FSx for Lustre 設定 SageMaker HyperPod
若要開始使用 SageMaker HyperPod 並映射叢集和 FSx for Lustre 檔案系統之間的資料路徑,請選取 SageMaker HyperPod AWS 區域 支援的其中一個 。選擇 AWS 區域 您偏好的 後,您也應該決定要使用哪個可用區域 (AZ)。
如果您在 AZs 中使用 SageMaker HyperPod 運算節點,與 FSx for Lustre 檔案系統在相同區域內設定的 AZs 不同 AWS 區域,則可能會有通訊和網路額外負荷。我們建議您使用與 SageMaker HyperPod 服務帳戶相同的實體 AZ,以避免 SageMaker HyperPod 叢集和 FSx for Lustre 檔案系統之間的任何跨 AZ 流量。此外,請確定您已使用 VPC 進行設定。如果您想要使用 Amazon FSx 做為儲存的主要檔案系統,您必須使用 VPC 設定 SageMaker HyperPod 叢集。