本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
AWS 适用于 EC2、ECS、EKS 的深度学习基础容器(配备 NVIDIA CUDA 12.8 和 AWS EFA)
AWS Dee@@ p Learning Containers (DLCs)
这些 Base DLCs 打包了基本的深度学习组件和依赖项,而不受特定框架的约束,使用户可以灵活地使用自己的首选框架对其 DLCs 进行自定义。
这些映像预先配置了 CUDA、cuDNN、Python 和 EFA 支持的核心组件,可以无缝运行 out-of-the-box,通过节点间连接提供了稳定、可靠的起点,同时保持了 ECS 和 EKS 服务的兼容性。 EC2
对这些映像中的所有软件组件进行安全漏洞扫描,并根据 AWS 安全最佳实践进行更新或修补。
可用容器列表可在上找到GitHub
发布说明
开发工具:包括 curl、build-essential、cmake 和 git,以满足常见的开发需求
Python 环境:预装了 AWS CLI、boto3 和请求的 Python 3.12
GPU 支持:带有 cuda-compat 的 CUDA 12.8.1 向后兼容
神经网络库:用于深度神经网络操作的 cuDNN 9.8.0.87
分布式训练:适用于多 GPU 和多节点通信的 NCCL 2.26.2-1
网络性能:适用于低延迟网络通信的 EFA 1.40.0
安全建议
AWS 建议客户监控安全公告中的关键AWS 安全
Python 支持
支持 Python 3.12。
GPU 实例类型支持
这些容器支持 Graviton GPU 实例类型 g5G,并包含以下支持 GPU 的软件组件:
CUDA 12.8
cudnn 9.8.0.87
NCCL 2.26.2-1
示例 URL
763104351884.dkr.ecr.us-west-2.amazonaws.com/base:12.8.1-gpu-py312-cu128-ubuntu24.04-ec2
AWS 地区支持
这些容器可在以下地区使用:
区域 |
代码 |
---|---|
美国东部(弗吉尼亚州北部) |
us-east-1 |
美国东部(俄亥俄州) |
us-east-2 |
美国西部 (加利福尼亚北部) |
us-west-1 |
美国西部(俄勒冈州) |
us-west-2 |
亚太地区(香港) |
ap-east-1 |
亚太地区(孟买) |
ap-south-1 |
亚太地区(海得拉巴) |
ap-south-2 |
亚太地区(东京) |
ap-northeast-1 |
亚太地区 (首尔) |
ap-northeast-2 |
亚太地区(大阪) |
ap-northeast-3 |
亚太地区(新加坡) |
ap-southeast-1 |
亚太地区(悉尼) |
ap-southeast-2 |
亚太地区(雅加达) |
ap-southeast-3 |
亚太地区(墨尔本) |
ap-southeast-4 |
亚太地区(马来西亚) |
ap-southeast-5 |
亚太地区(泰国) |
ap-southeast-7 |
加拿大(中部) |
ca-central-1 |
加拿大(卡尔加里) |
ca-west-1 |
欧洲(法兰克福) |
eu-central-1 |
欧洲(苏黎世) |
eu-central-2 |
欧洲(爱尔兰) |
eu-west-1 |
欧洲(伦敦) |
eu-west-2 |
欧盟(巴黎) |
eu-west-3 |
欧盟(米兰) |
eu-south-1 |
欧盟(西班牙) |
eu-south-2 |
欧洲(斯德哥尔摩) |
eu-north-1 |
中东(巴林) |
me-south-1 |
中东(阿联酋) |
me-central-1 |
以色列(特拉维夫) |
il-central-1 |
南非(圣保罗) |
sa-east-1 |
AF South(开普敦) |
af-south-1 |
墨西哥(中部) |
mx-central-1 |
中国(北京) |
cn-north-1 |
中国(宁夏) |
cn-northwest-1 |
构建和测试
建立在:c5.18xlarge
测试在:p4d.24xlarge、p4de.24xlarge、p5.48xlarge
已知问题
-
到目前为止尚无已知问题