问题排查 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

问题排查

重要

截至 2023 年 11 月 30 日,之前的亚马逊 SageMaker Studio 体验现在被命名为 Amazon St SageMaker udio Classic。以下部分专门介绍如何使用更新后的 Studio 体验。有关使用 Studio Classic 应用程序的信息,请参阅 亚马逊 SageMaker Studio 经典版

重要

允许 Amazon SageMaker Studio 或 Amazon SageMaker Studio Classic 创建亚马逊 SageMaker资源的自定义 IAM 策略还必须授予向这些资源添加标签的权限。之所以需要为资源添加标签的权限,是因为 Studio 和 Studio Classic 会自动为创建的任何资源添加标签。如果 IAM 策略允许 Studio 和 Studio Classic 创建资源但不允许标记,则在尝试创建资源时可能会出现 AccessDenied “” 错误。有关更多信息,请参阅 提供标记 A SageMaker I 资源的权限

AWS亚马逊 A SageMaker I 的托管策略授予创建 SageMaker 资源的权限已经包括在创建这些资源时添加标签的权限。

本节介绍如何解决 Amazon SageMaker Studio 中的常见问题。

恢复模式

当配置问题导致常规启动失败时,可通过恢复模式访问 Studio 应用程序。此模式提供了带基本功能的简化环境,可帮助您诊断问题并进行修复。

当应用程序无法启动时,您可能会看到一条错误消息,指示访问恢复模式以解决下列配置问题之一。

  • .condarc 文件已损坏。

    有关排查 .condarc 文件的问题的信息,请参阅《Conda 用户指南》中的故障排除页面。

  • 可用存储卷不足。

    您可以增加应用程序可用的 Amazon EBS 空间存储或进入恢复模式以移除不必要的数据。

    有关增加 Amazon EBS 卷大小的信息,请参阅《服务配额开发人员指南》中的请求配额大小

在恢复模式下:

  • 您的主目录将与常规启动时的主目录不同。此目录为临时目录,可确保标准主目录中存在的任何损坏配置不会影响恢复模式下的操作。您可以使用命令 cd /home/sagemaker-user 导航到标准主目录。

    • 标准模式:/home/sagemaker-user

    • 恢复模式:/tmp/sagemaker-recovery-mode-home

  • 此 conda 环境采用极简的基础配置,并且仅包含必要的软件包。简化的 conda 设置有助于隔离与环境相关的问题,并提供基本功能以进行故障排除。

您可以使用 Studio 用户界面或在恢复模式下访问应用程序。AWS CLI

下文提供了有关在恢复模式下访问应用程序的说明。

  1. 如果您尚未这样做,请按照从 Amazon A SageMaker I 控制台启动中的说明操作来启动 Studio UI。

  2. 在左侧导航菜单中的应用程序下,选择应用程序。

  3. 选择您遇到配置问题的空间。

    当您遇到前面提到的一个或多个配置问题时,可执行以下步骤。在此情况下,您将看到警告横幅和恢复模式消息。

    注意

    警告横幅应包含针对该问题的推荐解决方案。请先记下此解决方案,然后再继续操作。

  4. 选择运行空间(恢复模式)

  5. 要在恢复模式下访问应用程序,请选择打开application(恢复模式)

要在恢复模式下访问您的应用程序,您必须在 create- AWS CLI ap --recovery-mode p 命令后附加。下文提供了有关如何在恢复模式下访问应用程序的示例。

对于以下示例,您将需要您的:

Access Code Editor application in recovery mode
aws sagemaker create-app \ --app-name app-name \ --app-type CodeEditor \ --domain-id domain-id \ --space-name space-name \ --recovery-mode
Access JupyterLab application in recovery mode
aws sagemaker create-app \ --app-name app-name \ --app-type JupyterLab \ --domain-id domain-id \ --space-name space-name \ --recovery-mode

无法删除代码编辑器或 JupyterLab 应用程序

当用户从 Amazon SageMaker Studio 创建仅在 Studio 中可用的应用程序,然后将其默认体验恢复为 Studio Classic 时,就会出现此问题。因此,用户无法根据 Code-OSS、Visual Studio Code-Open Source 删除代码编辑器的应用程序 JupyterLab,或者因为他们无法访问 Studio 用户界面。

要解决此问题,请通知您的管理员,以便他们可以使用 AWS Command Line Interface (AWS CLI) 手动删除应用程序。

EC2InsufficientCapacityError

当您尝试运行空间但当前AWS没有足够的按需容量来满足您的请求时,就会出现此问题。

要解决此问题,请完成以下操作。

  • 等待几分钟,然后重新提交请求。容量会经常变化。

  • 使用其他实例大小或类型运行空间。

注意

不同的可用区可提供不同的容量。为了最大限度地提高用户的可用容量,我们建议在所有可用区内设置子网。Studio 会重试域的所有可用区。

不同区域的实例类型可用性不同。有关每个区域支持的实例类型的列表,请参阅 Amazon A SageMaker I 定价

下表列出了实例系列及其推荐的替代方案。

实例系列 CPU 类型 v CPUs 内存(GiB) GPU 类型 GPUs GPU 内存 (GiB) 建议的替代方案
G4dn 第二代 Intel Xeon Scalable 处理器 4 至 96 16 至 384 NVIDIA T4 Tensor Core 1 至 8 每 GPU 16 个 G6
G5 第二代 AMD EPYC 处理器 4 至 192 16 至 768 NVIDIA A10G Tensor Core 1 至 8 每 GPU 24 个 G6e
G6 第三代 AMD EPYC 处理器 4 至 192 16 至 768 NVIDIA L4 Tensor Core 1 至 8 每 GPU 24 个 G4dn
G6e 第三代 AMD EPYC 处理器 4 至 192 32 至 1536 NVIDIA L40S Tensor Core 1 至 8 每 GPU 48 个 G5、P4
P3 Intel Xeon Scalable 处理器 8 至 96 61 至 768 NVIDIA Tesla V100 1 至 8 每 GPU 16 个(对于 P3dn,每 GPU 32 个) G6e、P4
P4 第二代 Intel Xeon Scalable 处理器 96 1152 NVIDIA A100 Tensor Core 8 320(对于 P4de,为 640) G6e
P5 第三代 AMD EPYC 处理器 192 2000 NVIDIA H100 Tensor Core 8 640 P4de

限制不足(需要增加配额)

如果在尝试运行空间时收到以下错误消息,就会出现此问题。

Error when creating application for space: ... : The account-level service limit is X Apps, with current utilization Y Apps and a request delta of 1 Apps. Please use服务配额to request an increase for this quota.

对于每种实例类型,在每个 AWS 区域,您可运行的实例数量都设有默认限制。此错误表示您已达到该限制。

要解决此问题,请申请提高启动空间的实例限制。AWS 区域有关更多信息,请参阅请求提高限额

加载自定义映像失败

如果 A SageMaker I 图像在从您的域中分离之前被删除,则会出现此问题。当您查看域的环境选项卡时,即可看到此问题。

要解决此问题,您需要创建一个与已删除的映像同名的临时新映像,分离该映像,然后删除临时映像。按照以下说明操作来进行演练。

  1. 如果您尚未执行此操作,请启动 SageMaker AI 控制台

  2. 在左侧导航菜单中的管理员配置下,选择

  3. 选择您的域。

  4. 选择环境选项卡。此页面上将显示该错误消息。

  5. 从映像 ARN 中复制您的映像名称。

  6. 在左侧导航菜单中的管理员配置下,选择映像

  7. 选择创建映像

  8. 按照过程中的步骤进行操作,但请确保您的映像名称与上述映像名称相同。

    如果您在 Amazon ECR 目录中没有映像,请参阅创建自定义映像并将其推送到 Amazon ECR中的说明。

  9. 创建 A SageMaker I 映像后,导航回您的域环境选项卡。您将看到附加到域的映像。

  10. 选择该映像,然后选择分离

  11. 按照说明分离和删除临时 SageMaker AI 镜像。