疑難排解 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

疑難排解

重要

自 2023 年 11 月 30 日起,先前的 Amazon SageMaker Studio 體驗現在命名為 Amazon SageMaker Studio Classic。下節專門介紹如何使用更新的 Studio 體驗。如需使用 Studio Classic 應用程式的資訊,請參閱 Amazon SageMaker Studio Classic

重要

允許 Amazon SageMaker Studio 或 Amazon SageMaker Studio Classic 建立 Amazon SageMaker 資源的自訂 IAM 政策也必須授與許可,才能將標籤新增至這些資源。需要將標籤新增至資源的許可,因為 Studio 和 Studio Classic 會自動標記它們建立的任何資源。如果 IAM 政策允許 Studio 和 Studio Classic 建立資源,但不允許標記,則在嘗試建立資源時可能會發生 "AccessDenied" 錯誤。如需詳細資訊,請參閱提供標記 SageMaker AI 資源的許可

提供許可來建立 SageMaker 資源的 AWS Amazon SageMaker AI 的 受管政策 已包含建立這些資源時新增標籤的許可。

本節說明如何對 Amazon SageMaker Studio 中的常見問題進行故障診斷。

復原模式

復原模式可讓您在組態問題阻止正常啟動時存取 Studio 應用程式。它提供簡化的環境與基本功能,協助您診斷和修正問題。

當應用程式無法啟動時,您可能會看到有關存取復原模式以解決下列其中一個組態問題的錯誤訊息。

  • 損毀的 .condarc 檔案。

    如需對 .condarc 檔案進行故障診斷的相關資訊,請參閱《Conda 使用者指南》中的故障診斷頁面。

  • 可用的儲存磁碟區不足。

    您可以增加應用程式可用的 Amazon EBS 空間儲存體,或進入復原模式以移除不必要的資料。

    如需增加 Amazon EBS 磁碟區大小的資訊,請參閱《Service Quotas 開發人員指南》中的請求配額大小

在復原模式中:

  • 您的主目錄將與正常啟動不同。此目錄是暫時的,可確保標準主目錄中的任何損毀組態都不會影響您的復原模式操作。您可以使用命令 cd /home/sagemaker-user 導覽至標準主目錄。

    • 標準模式:/home/sagemaker-user

    • 復原模式:/tmp/sagemaker-recovery-mode-home

  • conda 環境僅使用最小基本 conda 環境與基本套件。簡化的 conda 設定有助於隔離環境相關問題,並提供基本功能進行故障診斷。

您可以使用 Studio UI 或 AWS CLI 在復原模式下存取應用程式。

以下提供在復原模式下存取應用程式的指示。

  1. 如果您尚未這麼做,請遵循從 Amazon SageMaker AI 主控台啟動中的指示啟動 Studio UI。

  2. 在左側導覽功能表的應用程式下,選擇應用程式。

  3. 選擇讓您遇到組態問題的空間。

    當您有上述一或多個組態問題時,即可使用下列步驟。在這種情況下,您會看到警告橫幅和復原模式訊息。

    注意

    警告橫幅應該有建議的問題解決方案。請先記下再繼續。

  4. 選擇執行空間 (復原模式)

  5. 若要在復原模式下存取您的應用程式,請選擇開啟應用程式 (復原模式)

若要以復原模式存取您的應用程式,您必須附加--recovery-modecreate-app AWS CLI 命令。以下提供如何在復原模式下存取應用程式的範例。

針對下列範例,您將需要:

Access Code Editor application in recovery mode
aws sagemaker create-app \ --app-name app-name \ --app-type CodeEditor \ --domain-id domain-id \ --space-name space-name \ --recovery-mode
Access JupyterLab application in recovery mode
aws sagemaker create-app \ --app-name app-name \ --app-type JupyterLab \ --domain-id domain-id \ --space-name space-name \ --recovery-mode

無法刪除程式碼編輯器或 JupyterLab 應用程式

當使用者從 Amazon SageMaker Studio 建立僅在 Studio 中可用的應用程式,然後將其預設體驗還原至 Studio Classic 時,就會發生此問題。因此,使用者無法刪除程式碼編輯器 (以 Code-OSS、Visual Studio Code - Open Source 為基礎) 或 JupyterLab 的應用程式,因為他們無法存取 Studio UI。

若要解決此問題,請通知您的管理員,讓他們可以使用 AWS Command Line Interface () 手動刪除應用程式AWS CLI。

EC2InsufficientCapacityError

當您嘗試執行空間,但 AWS 目前沒有足夠的可用隨需容量來滿足您的請求時,就會發生此問題。

若要解決此問題,請完成下列動作。

  • 等候幾分鐘,然後重新提交您的請求。容量可能會頻繁變化。

  • 使用替代執行個體大小或類型執行空間。

注意

容量可在不同的可用區域中使用。為了最大化使用者的容量可用性,我們建議在所有可用區域中設定子網路。Studio 會重試網域所有可用的可用區域。

執行個體類型可用性因區域而異。如需每個區域支援的執行個體類型清單,請參閱 Amazon SageMaker AI 定價

下表列出執行個體系列及其建議的替代方案。

執行個體系列 CPU 類型 vCPUs 記憶體 (GiB) GPU 類型 GPU GPU 記憶體 (GiB) 建議的替代方案
G4dn 第二代 Intel Xeon 可擴充處理器 4 到 96 16 到 384 NVIDIA T4 Tensor 核心 1 到 8 每個 GPU 16 個 G6
G5 第二代 AMD EPYC 處理器 4 到 192 16 到 768 NVIDIA A10G Tensor 核心 1 到 8 每個 GPU 24 個 G6e
G6 第三代 AMD EPYC 處理器 4 到 192 16 到 768 NVIDIA L4 Tensor 核心 1 到 8 每個 GPU 24 個 G4dn
G6e 第三代 AMD EPYC 處理器 4 到 192 32 到 1536 NVIDIA L40S Tensor 核心 1 到 8 每個 GPU 48 個 G5、P4
P3 Intel Xeon 可擴充處理器 8 至 96 61 到 768 NVIDIA Tesla V100 1 到 8 每個 GPU 16 個 (P3dn 每個 GPU 32 個) G6e、P4
P4 第二代 Intel Xeon 可擴充處理器 96 1152 NVIDIA A100 Tensor 核心 8 320 (P4de 為 640) G6e
P5 第三代 AMD EPYC 處理器 192 2000 NVIDIA H100 Tensor 核心 8 640 P4de

限制不足 (需要增加配額)

當您在嘗試執行空間時收到下列錯誤訊息,就會發生此問題。

Error when creating application for space: ... : The account-level service limit is X Apps, with current utilization Y Apps and a request delta of 1 Apps. Please use Service Quotas to request an increase for this quota.

對於每個執行個體類型,您可以在每個 AWS 區域執行的執行個體數量有預設限制。此錯誤表示您已達到該限制。

若要解決此問題,請為您啟動空間 AWS 區域 的 請求增加執行個體限制。如需詳細資訊,請參閱請求增加配額

無法載入自訂映像

此問題會在從網域分離映像之前刪除 SageMaker AI 映像時發生。當您檢視網域的環境索引標籤時,即可看到此情況。

若要解決此問題,您需要建立與已刪除映像同名的臨時新映像、分離映像,然後刪除臨時映像。使用下列指示進行演練。

  1. 如果您尚未這麼做,請啟動 SageMaker AI 主控台

  2. 在左側導覽功能表的管理員組態下,選擇網域

  3. 選擇您的網域。

  4. 選擇環境索引標籤。您會在此頁面上看到錯誤訊息。

  5. 從映像 ARN 複製您的映像名稱。

  6. 在左側導覽功能表的管理員組態下,選擇映像

  7. 選擇 Create image (建立映像)。

  8. 請遵循程序中的步驟,但確定您的映像名稱與上面的映像名稱相同。

    如果您在 Amazon ECR 目錄中沒有映像,請參閱建立自訂映像並推送至 Amazon ECR中的指示。

  9. 一旦建立了 SageMaker AI 映像,請導覽回您的網域環境索引標籤。您將看到連接至網域的映像。

  10. 選取映像,然後選擇分離

  11. 遵循指示來分離和刪除臨時 SageMaker AI 映像。