开始使用 GPU 加速实例 - Amazon Elastic Compute Cloud

开始使用 GPU 加速实例

最新一代 GPU 加速实例类型(如以下列表所示的类型)为深度学习和高性能计算 (HPC) 应用程序提供了最高性能的功能。选择实例类型链接以了解有关其功能的更多信息。

有关加速实例类型的实例类型规范的完整列表,请参阅 Amazon EC2 实例类型参考中的加速计算

软件配置

开始使用最新一代 GPU 加速实例类型的最简单方法是从预先配置了所有必需软件的 AWS 深度学习 AMI 启动实例。有关与 GPU 加速实例类型配合使用的最新 AWS Deep Learning AMIs,请参阅《AWS Deep Learning AMIs 开发人员指南》中的 P6 Supported DLAMI

如果需要构建自定义 AMI 来启动托管深度学习或 HPC 应用程序的实例,则建议在基础映像上安装以下最低软件版本。

实例类型 NVIDIA 驱动程序 CUDA NVIDIA GDRCopy EFA 安装程序 NCCL EFA K8s*
P5 530 12.1 2.3 1.24.1 2.18.3 0.4.4
P5e 550 12.1 2.3 1.24.1 2.18.3 0.5.5
P5en 550 12.1 2.3 1.24.1 2.18.3 0.5.6
P6-B200 570 12.8 2.5 1.4.1 2.26.2-1 0.5.10

* EFA K8s 列包含 aws-efa-k8s-device-plugin 的最低推荐版本。

注意

如果您使用 EFA 安装程序 1.4.1 版本,则 aws-ofi-nccl plugin 会附带它。对于早期版本的 EFA 安装程序,请使用 aws-ofi-nccl plugin 版本 1.7.2-aws 或更高版本。

还会建议您将实例配置为不使用深层 C 状态。有关更多信息,请参阅《Amazon Linux 2 User Guide》中的 High performance and low latency by limiting deeper C-states。最新的 AWS 深度学习基础 GPU AMI 已预先配置为不使用深层 C 状态。

有关网络和 Elastic Fabric Adapter(EFA)配置,请参阅 使用多网卡最大化 Amazon EC2 实例上的网络带宽