本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
AWS 适用于 TensorFlow 2.18 训练的 Deep Learning Containers SageMaker
AWS 适用于亚马逊 SageMaker 的 Dee@@ p Learning
此版本包括用于在 CPU 和 GPU 上训练的容器镜像,针对性能和扩展进行了优化 AWS。这些 Docker 镜像已经过 SageMaker 服务测试,提供稳定版本的 NVIDIA CUDA、cuDNN 和其他组件,为运行深度学习工作负载提供优化的用户体验。 AWS对这些映像中的所有软件组件进行安全漏洞扫描,并根据 AWS 安全最佳实践进行更新或修补。这些新 DLC 专为在 SageMaker 训练服务中使用而设计。
可用容器列表可以在我们的文档中找到。有关最新更新,另请参阅 aws/ 存储deep-learning-containers GitHub 库
发布说明
TensorFlow 为 2.18 引入了容器 SageMaker
有关 TensorFlow 2.18 训练 DLCs的更多详情,请参阅 v
1.0-tf-sagemaker-2.18.0-tr-py310。 由于 Nvidia 驱动程序不兼容,此 DLC SageMaker 无法在 P2 实例系列上运行。
有关最新更新,请参阅 aws/ 存储deep-learning-containers GitHub 库
Package 弃用
Sagemaker Tensorflow
软件包未在 TF2 .16 DLCs 及以上版本中维护,因此不随此 DLC 一起提供。因此,这些 Sag DLCs emaker 将不支持管道模式。 TF 2.14 DLCs 及以上版本的 Horovod
包裹已停止发货。客户将能够通过forderedlistlist遵循指南 来安装horovod库,并将其安装在他们的 DLCs 分布式训练作业上。 SageMaker TF 2.14 DLCs 及更高版本不包括@@ 数据并行。此功能在我们的最新 PyTorch 图像中仍然可用。
安全建议
AWS 建议客户监控安全公告中的关键AWS 安全
更新。
Python 支持
已安装的深度学习框架的容器中支持 Python 3.10。
CPU 实例类型支持
容器支持 CPU 实例类型。 TensorFlow 是在支持 OneDNN 库的基础上构建的。
GPU 实例类型支持
这些容器支持 GPU 实例类型,并包含支持 GPU 的 forderedListlowing 软件组件。
CUDA 12.5
cudnn 9.3
NCCL 2.23.4-1
AWS 地区支持
这些容器在以下排序列表区域可用:
区域 |
代码 |
---|---|
美国东部(俄亥俄州) |
us-east-2 |
美国东部(弗吉尼亚州北部) |
us-east-1 |
美国西部(俄勒冈州) |
us-west-2 |
美国西部(加利福尼亚北部) |
us-west-1 |
AF South(开普敦) |
af-south-1 |
亚太地区(香港) |
ap-east-1 |
亚太地区(海得拉巴) |
ap-south-2 |
亚太地区(孟买) |
ap-south-1 |
亚太地区(大阪) |
ap-northeast-3 |
亚太地区(首尔) |
ap-northeast-2 |
亚太地区(东京) |
ap-northeast-1 |
亚太地区(墨尔本) |
ap-southeast-4 |
亚太地区(雅加达) |
ap-southeast-3 |
亚太地区(悉尼) |
ap-southeast-2 |
亚太地区(新加坡) |
ap-southeast-1 |
亚太地区(马来西亚) |
ap-southeast-5 |
加拿大(中部) |
ca-central-1 |
加拿大(卡尔加里) |
ca-west-1 |
欧洲(苏黎世) |
eu-central-2 |
欧洲(法兰克福) |
eu-central-1 |
欧洲(爱尔兰) |
eu-west-1 |
欧洲(伦敦) |
eu-west-2 |
欧盟(巴黎) |
eu-west-3 |
欧盟(西班牙) |
eu-south-2 |
欧盟(米兰) |
eu-south-1 |
欧盟(Stockhorderedlistm) |
eu-north-1 |
以色列(特拉维夫) |
il-central-1 |
中东(巴林) |
me-south-1 |
中东(阿联酋) |
me-central-1 |
南非(圣保罗) |
sa-east-1 |
中国(北京) |
cn-north-1 |
中国(宁夏) |
cn-northwest-1 |
构建和测试
建立在:c5.18xlarge
经过测试的 DLC 图片:c4.8xlarge、c5.18xlarge、m4.16xlarge、p3.16xlarge、p3dn.24xlarge、p4d.24xlarge、p4de.24xlarge、p4de.24xlarge、g4dn.xlarge
已知问题
使用 s3 文件系统时,Tensorflow IO
软件包会引发异常(问题链接)。 因此,在上游提供修复程序之前,此 DLC 将不支持依赖于 Tensorflow IO 的 s3 功能的功能。很少有这样不支持的功能是 s3 插件、s3 检查点、s3 记录获取和 Sagemaker 上的 Parameter Server 训练。