AWS 适用于 TensorFlow 2.18 训练的 Deep Learning Containers SageMaker - AWS 深度学习容器

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

AWS 适用于 TensorFlow 2.18 训练的 Deep Learning Containers SageMaker

AWS 适用于亚马逊 SageMaker 的 Dee@@ p Learning Containers (DLC) 现已上市,在 Ubunt TensorFlow u 22.04 上支持 2.18,支持 CUDA 12.5。你可以在 SageMaker 服务上启动新版本的 Deep Learning Containers。有关 Dee AWS p Learning Containers 支持的框架和版本的完整列表,请参阅下面的发行说明。

此版本包括用于在 CPU 和 GPU 上训练的容器镜像,针对性能和扩展进行了优化 AWS。这些 Docker 镜像已经过 SageMaker 服务测试,提供稳定版本的 NVIDIA CUDA、cuDNN 和其他组件,为运行深度学习工作负载提供优化的用户体验。 AWS对这些映像中的所有软件组件进行安全漏洞扫描,并根据 AWS 安全最佳实践进行更新或修补。这些新 DLC 专为在 SageMaker 训练服务中使用而设计。

可用容器列表可以在我们的文档中找到。有关最新更新,另请参阅 aws/ 存储deep-learning-containers GitHub 库使用我们开发者指南中的入门指南和从初学者到高级级别的教程,快速开始使用 Dee AWS p Learning Containers。您也可以订阅我们的讨论论坛以获取发布公告并发布您的问题。

发布说明

  • TensorFlow 为 2.18 引入了容器 SageMaker

  • 有关 TensorFlow 2.18 训练 DLCs的更多详情,请参阅 v 1.0-tf-sagemaker-2.18.0-tr-py310。

  • 由于 Nvidia 驱动程序不兼容,此 DLC SageMaker 无法在 P2 实例系列上运行。

有关最新更新,请参阅 aws/ 存储deep-learning-containers GitHub 库

Package 弃用

安全建议

Python 支持

已安装的深度学习框架的容器中支持 Python 3.10。

CPU 实例类型支持

容器支持 CPU 实例类型。 TensorFlow 是在支持 OneDNN 库的基础上构建的。

GPU 实例类型支持

这些容器支持 GPU 实例类型,并包含支持 GPU 的 forderedListlowing 软件组件。

  • CUDA 12.5

  • cudnn 9.3

  • NCCL 2.23.4-1

AWS 地区支持

这些容器在以下排序列表区域可用:

区域

代码

美国东部(俄亥俄州)

us-east-2

美国东部(弗吉尼亚州北部)

us-east-1

美国西部(俄勒冈州)

us-west-2

美国西部(加利福尼亚北部)

us-west-1

AF South(开普敦)

af-south-1

亚太地区(香港)

ap-east-1

亚太地区(海得拉巴)

ap-south-2

亚太地区(孟买)

ap-south-1

亚太地区(大阪)

ap-northeast-3

亚太地区(首尔)

ap-northeast-2

亚太地区(东京)

ap-northeast-1

亚太地区(墨尔本)

ap-southeast-4

亚太地区(雅加达)

ap-southeast-3

亚太地区(悉尼)

ap-southeast-2

亚太地区(新加坡)

ap-southeast-1

亚太地区(马来西亚)

ap-southeast-5

加拿大(中部)

ca-central-1

加拿大(卡尔加里)

ca-west-1

欧洲(苏黎世)

eu-central-2

欧洲(法兰克福)

eu-central-1

欧洲(爱尔兰)

eu-west-1

欧洲(伦敦)

eu-west-2

欧盟(巴黎)

eu-west-3

欧盟(西班牙)

eu-south-2

欧盟(米兰)

eu-south-1

欧盟(Stockhorderedlistm)

eu-north-1

以色列(特拉维夫)

il-central-1

中东(巴林)

me-south-1

中东(阿联酋)

me-central-1

南非(圣保罗)

sa-east-1

中国(北京)

cn-north-1

中国(宁夏)

cn-northwest-1

构建和测试

  • 建立在:c5.18xlarge

  • 经过测试的 DLC 图片:c4.8xlarge、c5.18xlarge、m4.16xlarge、p3.16xlarge、p3dn.24xlarge、p4d.24xlarge、p4de.24xlarge、p4de.24xlarge、g4dn.xlarge

已知问题

  1. 使用 s3 文件系统时,Tensorflow IO 软件包会引发异常(问题链接)。因此,在上游提供修复程序之前,此 DLC 将不支持依赖于 Tensorflow IO 的 s3 功能的功能。很少有这样不支持的功能是 s3 插件、s3 检查点、s3 记录获取和 Sagemaker 上的 Parameter Server 训练。