本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon SageMaker HyperPod
SageMaker HyperPod 帮助您配置弹性集群,以运行机器学习 (ML) 工作负载和开发 state-of-the-art大型语言模型 (LLMs)、扩散模型和基础模型 (FMs) 等模型。它 FMs 通过消除构建和维护由数千个加速器(例如 AWS Trainium 和 NVIDIA A100 和 H100 图形处理单元)提供支持的大型计算集群所涉及的无差别繁重工作来加速开发()。GPUs当加速器出现故障时, SageMaker HyperPod 监控集群实例的弹性功能会自动检测并即时更换故障硬件,这样您就可以专注于运行 ML 工作负载。
要开始使用,请选使用 SageMaker HyperPod 的先决条件中AWS Identity and Access Management 对于 SageMaker HyperPod、设置并选择以下支持的 Orchestrator 选项之一。 SageMaker HyperPod
Slurm 支持中 SageMaker HyperPod
SageMaker HyperPod 通过与开源工作负载管理器 Slurm 集成,为在弹性集群上运行机器学习工作负载提供支持。中的 Slurm 支持通过 Slurm 集群配置 SageMaker HyperPod实现了无缝集群编排,允许您在集群上设置主节点、登录节点和工作节点。该集成还便于基于 SLURM 的作业调度,以便在集 SageMaker HyperPod 群上运行 ML 工作负载,以及直接访问集群节点进行作业调度。借助 HyperPod生命周期配置支持,您可以自定义集群的计算环境以满足您的特定要求。此外,通过利用 Amazon SageMaker AI 分布式训练库,您可以优化集群在 AWS 计算和网络资源方面的性能。要了解更多信息,请参阅使用 Slurm 编排 SageMaker HyperPod 集群。
亚马逊 EKS 支持 SageMaker HyperPod
SageMaker HyperPod 还与 Amazon EKS 集成,可在长时间运行且具有弹性的计算集群上大规模训练基础模型。这允许集群管理员用户配置 HyperPod 集群并将其连接到 EKS 控制平面,从而实现动态容量管理、直接访问集群实例和弹性功能。对于数据科学家,Amazon EKS 的支持 HyperPod 允许运行容器化工作负载用于训练基础模型、在 EKS 集群上进行推理,以及利用作业自动恢复功能进行 Kubeflow 训练。 PyTorch 该架构涉及 VPC 内的 EKS 集群(控制平面)和集 HyperPod群(工作节点)之间的一对一映射,为运行大规模机器学习工作负载提供了紧密集成的解决方案。要了解更多信息,请参阅使用 Amazon EKS 编排 SageMaker HyperPod 集群。
UltraServers with HyperPod
HyperPod 通过将 NVIDIA 超级芯片集成到一个有凝聚力的高性能基础设施中, UltraServers 提供 AI 计算能力。每个实例 NVL72 UltraServer 结合了 18 个实例和 72 个 NVIDIA Blackwell 通过 GPUs 连接的实例 NVLink,与上一代实例相比,可实现更快的推理和更快的训练性能。这种架构对于使用万亿参数基础模型的组织特别有价值,因为统一的 GPU 内存允许整个模型保留在单个 NVLink 域中,从而消除了跨节点网络瓶颈。 HyperPod 通过优化工作负载放置的智能拓扑感知调度、自动更换实例以最大限度地减少中断,以及支持专用和共享资源配置的灵活部署选项,增强了这一硬件优势。对于突破模型规模和性能界限的团队来说,这种集成提供了以空前的效率训练和部署最先进的人工智能模型所需的计算基础。
SageMaker HyperPod 自动优化您的实例布局。 UltraServers默认情况下,在使用 HyperPod 其他实例 UltraServer 之前,先将所有实例合而为一。例如,如果您想要 14 个实例,并且您的计划 UltraServers 中有 2 个实例, SageMaker AI 会使用第一个实例中的所有实例 UltraServer。如果您想要 20 个实例, SageMaker AI 会使用第一个实例中的所有 18 个实例, UltraServer 然后再使用第二个实例中的 2 个实例。
AWS 区域 由... 支持 SageMaker HyperPod
SageMaker HyperPod 可在以下版本中找到 AWS 区域。
-
us-east-1
-
us-east-2
-
us-west-1
-
us-west-2
-
eu-central-1
-
eu-north-1
-
eu-west-1
-
eu-west-2
-
eu-south-2
-
ap-south-1
-
ap-southeast-1
-
ap-southeast-2
-
ap-southeast-3
-
ap-southeast-4
-
ap-northeast-1
-
sa-east-1