開始使用 GPU 加速執行個體 - Amazon Elastic Compute Cloud

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

開始使用 GPU 加速執行個體

最新一代的 GPU 加速執行個體類型,如下列清單所示,可為深度學習和高效能運算 (HPC) 應用程式提供最高效能功能。選取執行個體類型連結,進一步了解其功能。

如需加速執行個體類型之執行個體類型規格的完整清單,請參閱「Amazon EC2 執行個體類型」參考中的加速運算

軟體組態

開始使用最新一代 GPU 加速執行個體類型的最簡單方法是從預先設定所有必要軟體的 AWS 深度學習 AMI 啟動執行個體。如需搭配 GPU 加速執行個體類型使用的最新 AWS 深度學習 AMIs 相關資訊,請參閱《 AWS 深度學習 AMIs 開發人員指南》中的 P6 支援的 DLAMI

如果您需要建置自訂 AMI 來啟動託管深度學習或 HPC 應用程式的執行個體,建議您在基礎映像上方安裝下列最低軟體版本。

執行個體類型 NVIDIA 驅動程式 CUDA NVIDIA GDRCopy EFA 安裝程式 NCCL EFA K8s*
P5 530 12.1 2.3 1.24.1 2.18.3 0.4.4
P5e 550 12.1 2.3 1.24.1 2.18.3 0.5.5
P5en 550 12.1 2.3 1.24.1 2.18.3 0.5.6
P6-B200 570 12.8 2.5 1.4.1 2.26.2-1 0.5.10

* EFA K8s 欄包含 的最低建議版本aws-efa-k8s-device-plugin

注意

如果您使用 EFA 安裝程式的 1.4.1 版,則 aws-ofi-nccl plugin會隨附它。對於舊版 EFA 安裝程式,請使用 aws-ofi-nccl plugin 版本 1.7.2-aws 或更新版本。

我們也建議您將執行個體設定為不使用深層的 C-states。如需詳細資訊,請參閱「Amazon Linux 2 使用者指南」中的限制深層的 C-state 達到高效能與低延遲。最新的 AWS 深度學習基礎 GPU AMIs已預先設定為不使用更深層的 C 狀態。

如需網路和 Elastic Fabric Adapter (EFA) 組態,請參閱 使用多個網路卡最大化 Amazon EC2 執行個體的網路頻寬