ML 容量块 - Amazon Elastic Compute Cloud

ML 容量块

机器学习容量块允许您在未来预留基于 GPU 的加速型计算实例,以支持您的短期机器学习工作负载。在容量块内运行的实例会自动紧密放置在 Amazon EC2 UltraClusters 中,以实现低延迟、PB 级非阻塞联网。

您还可以使用容量块为 Amazon EC2 UltraServers 预留容量。UltraServer 在低延迟、高带宽的加速器互连中连接多个 Amazon EC2 实例。您可以使用 UltraServer 来处理训练、微调和推理中最需要计算和内存的 AI/ML 工作负载。有关更多信息,请参阅 Amazon EC2 UltraServers

使用容量块,您可以了解 GPU 实例容量在未来何时可用,并安排容量块在最适合您的时间启动。当您预留容量块时,您可以获得 GPU 实例的可预测容量保证,同时只需为所需的时间付费。如果您需要 GPU 一次支持几天或几周的 ML 工作负载,并且不想在未使用 GPU 实例时支付预留费用,我们建议您使用容量块。

以下是容量块的一些常见使用案例。

  • ML 模型训练和微调 - 无中断地访问您为完成 ML 模型训练和微调而预留的 GPU 实例。

  • ML 实验和原型 - 运行实验并构建需要短期 GPU 实例的原型。

您可以预留具有以下规格的容量块:

  • 最早提前 8 周预留开始时间

  • 设置预留时长,时长为 1 至 14 天或 7 天的倍数,最多 182 天(例如:21 天、28 天)

  • 每个容量块最多可配置 64 个实例

  • 多个容量块最多可配置 256 个实例

对于 Amazon EC2 UltraServers,每个 UltraServer 对应一个容量块。您可以通过一次请求来请求多个 UltraServer。

您可以使用容量块来预留 p6-b200p5p5ep5enp4dp4detrn1trn2 实例。您可以通过容量块购买以下 UltraServer 类型:P6e-GB200Trn2(预览版)。

要预留容量块,首先要指定容量需求,包括所需的实例类型或 UltraServer 类型、实例或 UltraServer 数量、时间、最早开始日期和最晚结束日期。然后,您可以看到符合您要求的可用容量块产品。容量块产品包括开始时间、可用区和预留价格等详细信息。容量块产品的价格取决于产品交付时的供需情况。预留容量块后,价格不会改变。有关更多信息,请参阅 容量块定价和计费

当您购买容量块产品时,系统会根据您选择的日期和实例数创建预留。当容量块预留开始时,您可以通过在启动请求中指定预留 ID 来定位实例启动。

您可以在容量块结束时间前 30 分钟(适用于实例类型)或 60 分钟(适用于 UltraServer 类型)之前使用您预留的所有实例。在您的容量块预留还剩 30 分钟(适用于实例类型)或 60 分钟(适用于 UltraServer 类型)时,我们将开始终止在容量块中运行的所有实例。我们会利用这段时间清理您的实例,然后将容量块交付给下一个客户。系统将在终止过程开始前 10 分钟通过 EventBridge 发布一个事件。有关更多信息,请参阅 使用 EventBridge 监控容量块

支持的平台

适用于 ML 的容量块目前仅支持具有默认租赁的实例和 UltraServer。当您使用 AWS Management Console 购买容量块时,默认平台选项为 Linux/UNIX。当您使用 AWS Command Line Interface(AWS CLI)或 AWS SDK 购买容量块时,可以使用以下平台选项:

  • Linux/Unix

  • Red Hat Enterprise Linux

  • 含有 HA 的 RHEL

  • SUSE Linux

  • Ubuntu Pro

注意事项

在使用容量块之前,请考虑以下细节和限制。

  • 如果我们检测到影响了 UltraServer 容量块的缺陷,我们会通知您,但通常不会采取措施终止您在容量块上的实例。这是为了最大限度地减少对工作负载的意外中断。收到此通知后,您可以继续按原样使用 UltraServer 容量块,也可以通过终止容量块上的所有实例并提交 AWS 支持案例来请求补救。收到您的支持案例后,我们将在完成补救后通知您,之后您便可以将实例重新启动到 UltraServer 容量块上。

  • 对于 P6e-GB200 UltraServer 容量块,您必须在容量块结束时间前至少 60 分钟终止实例。

  • 要使用 P6e-GB200 UltraServer 容量块,必须选择加入达拉斯本地区域(弗吉尼亚北部)。

  • 每个容量块最多可以有 64 个实例,您最多可以跨容量块拥有 256 个实例。

  • 您可以描述最快 30 分钟内即可启动的容量块产品。

  • 容量块于协调世界时 (UTC) 上午 11:30 结束。

  • 在容量块中运行的实例的终止过程从预留最后一天协调世界时(UTC)上午 11:00 开始。

  • 容量块的预留起始时间最长为未来 8 周。

  • 不允许取消容量块。

  • 无法移动拆分容量块。

  • 容量块不能跨 AWS 账户或在 AWS 组织内部共享。

  • 只有 UltraServer 容量块可与资源组一起使用。实例容量块不能与资源组一起使用。有关更多信息,请参阅 为 UltraServer 容量块创建资源组

  • 在特定日期,AWS 组织中所有账户的容量块中可预留的实例总数不能超过 64 个。

  • 要使用容量块,实例必须具体定位预留 ID。

  • 容量块中的实例不计入按需型实例限制。

  • 对于使用自定义 AMI 的 P5 实例,请确保拥有 EFA 所需的软件和配置

  • 对于 Amazon EKS 托管式节点组,请参阅创建带适用于机器学习的 Amazon EC2 容量块的托管式节点组。对于 Amazon EKS 自行管理的节点组,请参阅将适用于机器学习的容量块与自行管理的节点配合使用

创建容量块后,您可以使用容量块执行以下操作:

有关 AWS ParallelCluster 的更多信息,请参阅什么是 AWS ParallelCluster

注意

并非所有 AWS 区域 中的所有实例类型都支持 64 个实例的容量块大小。