AWS 适用于 EC2、ECS、EKS 的深度学习基础容器(配备 NVIDIA CUDA 12.8 和 AWS EFA) - AWS 深度学习容器

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

AWS 适用于 EC2、ECS、EKS 的深度学习基础容器(配备 NVIDIA CUDA 12.8 和 AWS EFA)

AWS Dee@@ p Learning Containers (DLCs) 现在支持 Ubuntu 24.04 的基础映像 EC2,这些镜像是在 ECS 和 EKS 上构建机器学习环境的基础层。

这些 Base DLCs 打包了基本的深度学习组件和依赖项,而不受特定框架的约束,使用户可以灵活地使用自己的首选框架对其 DLCs 进行自定义。

这些映像预先配置了 CUDA、cuDNN、Python 和 EFA 支持的核心组件,可以无缝运行 out-of-the-box,通过节点间连接提供了稳定、可靠的起点,同时保持了 ECS 和 EKS 服务的兼容性。 EC2

对这些映像中的所有软件组件进行安全漏洞扫描,并根据 AWS 安全最佳实践进行更新或修补。

可用容器列表可在上找到GitHub使用我们开发者指南中的入门部分,快速开始使用 Dee AWS p Learning Containers。为确保您使用的是最新版本的 DLC,我们邀请您订阅我们的 DLC 通知机制。如果您正在寻找可搭配使用的 DLC SageMaker,请参阅此文档

发布说明

  • 开发工具:包括 curl、build-essential、cmake 和 git,以满足常见的开发需求

  • Python 环境:预装了 AWS CLI、boto3 和请求的 Python 3.12

  • GPU 支持:带有 cuda-compat 的 CUDA 12.8.1 向后兼容

  • 神经网络库:用于深度神经网络操作的 cuDNN 9.8.0.87

  • 分布式训练:适用于多 GPU 和多节点通信的 NCCL 2.26.2-1

  • 网络性能:适用于低延迟网络通信的 EFA 1.40.0

安全建议

AWS 建议客户监控安全公告中的关键AWS 安全更新。

Python 支持

支持 Python 3.12。

GPU 实例类型支持

这些容器支持 Graviton GPU 实例类型 g5G,并包含以下支持 GPU 的软件组件:

  • CUDA 12.8

  • cudnn 9.8.0.87

  • NCCL 2.26.2-1

示例 URL

763104351884.dkr.ecr.us-west-2.amazonaws.com/base:12.8.1-gpu-py312-cu128-ubuntu24.04-ec2

AWS 地区支持

这些容器可在以下地区使用:

区域

代码

美国东部(弗吉尼亚州北部)

us-east-1

美国东部(俄亥俄州)

us-east-2

美国西部 (加利福尼亚北部)

us-west-1

美国西部(俄勒冈州)

us-west-2

亚太地区(香港)

ap-east-1

亚太地区(孟买)

ap-south-1

亚太地区(海得拉巴)

ap-south-2

亚太地区(东京)

ap-northeast-1

亚太地区 (首尔)

ap-northeast-2

亚太地区(大阪)

ap-northeast-3

亚太地区(新加坡)

ap-southeast-1

亚太地区(悉尼)

ap-southeast-2

亚太地区(雅加达)

ap-southeast-3

亚太地区(墨尔本)

ap-southeast-4

亚太地区(马来西亚)

ap-southeast-5

亚太地区(泰国)

ap-southeast-7

加拿大(中部)

ca-central-1

加拿大(卡尔加里)

ca-west-1

欧洲(法兰克福)

eu-central-1

欧洲(苏黎世)

eu-central-2

欧洲(爱尔兰)

eu-west-1

欧洲(伦敦)

eu-west-2

欧盟(巴黎)

eu-west-3

欧盟(米兰)

eu-south-1

欧盟(西班牙)

eu-south-2

欧洲(斯德哥尔摩)

eu-north-1

中东(巴林)

me-south-1

中东(阿联酋)

me-central-1

以色列(特拉维夫)

il-central-1

南非(圣保罗)

sa-east-1

AF South(开普敦)

af-south-1

墨西哥(中部)

mx-central-1

中国(北京)

cn-north-1

中国(宁夏)

cn-northwest-1

构建和测试

已知问题

  • 到目前为止尚无已知问题