

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 疑難排解
<a name="studio-updated-troubleshooting"></a>

**重要**  
自 2023 年 11 月 30 日起，先前的 Amazon SageMaker Studio 體驗現在命名為 Amazon SageMaker Studio Classic。下節專門介紹如何使用更新的 Studio 體驗。如需使用 Studio Classic 應用程式的資訊，請參閱 [Amazon SageMaker Studio Classic](studio.md)。

**重要**  
允許 Amazon SageMaker Studio 或 Amazon SageMaker Studio Classic 建立 Amazon SageMaker 資源的自訂 IAM 政策也必須授與許可，才能將標籤新增至這些資源。需要將標籤新增至資源的許可，因為 Studio 和 Studio Classic 會自動標記它們建立的任何資源。如果 IAM 政策允許 Studio 和 Studio Classic 建立資源，但不允許標記，則在嘗試建立資源時可能會發生 "AccessDenied" 錯誤。如需詳細資訊，請參閱[提供標記 SageMaker AI 資源的許可](security_iam_id-based-policy-examples.md#grant-tagging-permissions)。  
提供許可來建立 SageMaker 資源的 [AWS Amazon SageMaker AI 的 受管政策](security-iam-awsmanpol.md) 已包含建立這些資源時新增標籤的許可。

本節說明如何對 Amazon SageMaker Studio 中的常見問題進行故障診斷。

## 復原模式
<a name="studio-updated-troubleshooting-recovery-mode"></a>

復原模式可讓您在組態問題阻止正常啟動時存取 Studio 應用程式。它提供簡化的環境與基本功能，協助您診斷和修正問題。

當應用程式無法啟動時，您可能會看到有關存取復原模式以解決下列其中一個組態問題的錯誤訊息。
+ 損毀的 [https://docs.conda.io/projects/conda/en/latest/user-guide/configuration/use-condarc.html](https://docs.conda.io/projects/conda/en/latest/user-guide/configuration/use-condarc.html) 檔案。

  如需對 `.condarc` 檔案進行故障診斷的相關資訊，請參閱《Conda 使用者指南》**中的[故障診斷](https://docs.conda.io/projects/conda/en/latest/user-guide/troubleshooting.html)頁面。
+ 可用的儲存磁碟區不足。

  您可以增加應用程式可用的 Amazon EBS 空間儲存體，或進入復原模式以移除不必要的資料。

  如需增加 Amazon EBS 磁碟區大小的資訊，請參閱《Service Quotas 開發人員指南》**中的[請求配額大小](https://docs.aws.amazon.com/servicequotas/latest/userguide/request-quota-increase.html)。

在復原模式中：
+ 您的主目錄將與正常啟動不同。此目錄是暫時的，可確保標準主目錄中的任何損毀組態都不會影響您的復原模式操作。您可以使用命令 `cd /home/sagemaker-user` 導覽至標準主目錄。
  + 標準模式：`/home/sagemaker-user`
  + 復原模式：`/tmp/sagemaker-recovery-mode-home`
+ conda 環境僅使用最小基本 conda 環境與基本套件。簡化的 conda 設定有助於隔離環境相關問題，並提供基本功能進行故障診斷。

您可以使用 Studio UI 或 AWS CLI 在復原模式下存取應用程式。

### 使用 Studio UI 在復原模式下存取應用程式
<a name="studio-updated-troubleshooting-recovery-mode-console"></a>

以下提供在復原模式下存取應用程式的指示。

1. 如果您尚未這麼做，請遵循[從 Amazon SageMaker AI 主控台啟動](studio-updated-launch.md#studio-updated-launch-console)中的指示啟動 Studio UI。

1. 在左側導覽功能表的**應用程式**下，選擇應用程式。

1. 選擇讓您遇到組態問題的空間。

   當您有上述一或多個組態問題時，即可使用下列步驟。在這種情況下，您會看到警告橫幅和**復原模式**訊息。
**注意**  
警告橫幅應該有建議的問題解決方案。請先記下再繼續。

1. 選擇**執行空間 (復原模式)**。

1. 若要在復原模式下存取您的應用程式，請選擇**開啟*應用程式* (復原模式)**。

### 使用 AWS CLI 在復原模式中存取應用程式
<a name="studio-updated-troubleshooting-recovery-mode-cli"></a>

若要以復原模式存取您的應用程式，您必須附加`--recovery-mode`至 [create-app](https://awscli.amazonaws.com/v2/documentation/api/latest/reference/sagemaker/create-app.html) AWS CLI 命令。以下提供如何在復原模式下存取應用程式的範例。

針對下列範例，您將需要：
+ *domain-id*

  若要取得您的網域詳細資訊，請參閱[檢視網域](domain-view.md)。
+ *space-name*

  若要取得與您網域相關聯的空間名稱，請參閱[使用 AWS CLI 檢視您網域中的 SageMaker AI 空間](sm-console-domain-resources-view.md#sm-console-domain-resources-view-spaces-cli)。
+ *app-name*

   應用程式的名稱。若要檢視您的應用程式，請參閱[使用 AWS CLI 檢視您網域中的 SageMaker AI 應用程式](sm-console-domain-resources-view.md#sm-console-domain-resources-view-apps-cli)。

------
#### [ Access Code Editor application in recovery mode ]

```
aws sagemaker create-app \
    --app-name app-name \
    --app-type CodeEditor \
    --domain-id domain-id \
    --space-name space-name \
    --recovery-mode
```

------
#### [ Access JupyterLab application in recovery mode ]

```
aws sagemaker create-app \
    --app-name app-name \
    --app-type JupyterLab \
    --domain-id domain-id \
    --space-name space-name \
    --recovery-mode
```

------

## 無法刪除程式碼編輯器或 JupyterLab 應用程式
<a name="studio-updated-troubleshooting-cannot-delete-application"></a>

當使用者從 Amazon SageMaker Studio 建立僅在 Studio 中可用的應用程式，然後將其預設體驗還原至 Studio Classic 時，就會發生此問題。因此，使用者無法刪除程式碼編輯器 (以 Code-OSS、Visual Studio Code - Open Source 為基礎) 或 JupyterLab 的應用程式，因為他們無法存取 Studio UI。

若要解決此問題，請通知您的管理員，以便他們可以使用 AWS Command Line Interface () 手動刪除應用程式AWS CLI。

## EC2InsufficientCapacityError
<a name="studio-updated-troubleshooting-ec2-capacity"></a>

當您嘗試執行空間，但 AWS 目前沒有足夠的可用隨需容量來滿足您的請求時，就會發生此問題。

若要解決此問題，請完成下列動作。
+ 等候幾分鐘，然後重新提交您的請求。容量可能會頻繁變化。
+ 使用替代執行個體大小或類型執行空間。

**注意**  
容量可在不同的可用區域中使用。為了最大化使用者的容量可用性，我們建議在所有可用區域中設定子網路。Studio 會重試網域所有可用的可用區域。  
執行個體類型可用性因區域而異。如需每個區域支援的執行個體類型清單，請參閱 [Amazon SageMaker AI 定價](https://aws.amazon.com/sagemaker/pricing/)

下表列出執行個體系列及其建議的替代方案。


| 執行個體系列 | CPU 類型 | vCPUs | 記憶體 (GiB) | GPU 類型 | GPU | GPU 記憶體 (GiB) | 建議的替代方案 | 
| --- | --- | --- | --- | --- | --- | --- | --- | 
| G4dn | 第二代 Intel Xeon 可擴充處理器 | 4 到 96 | 16 到 384 | NVIDIA T4 Tensor 核心 | 1 到 8 | 每個 GPU 16 個 | G6 | 
| G5 | 第二代 AMD EPYC 處理器 | 4 到 192 | 16 到 768 | NVIDIA A10G Tensor 核心 | 1 到 8 | 每個 GPU 24 個 | G6e | 
| G6 | 第三代 AMD EPYC 處理器 | 4 到 192 | 16 到 768 | NVIDIA L4 Tensor 核心 | 1 到 8 | 每個 GPU 24 個 | G4dn | 
| G6e | 第三代 AMD EPYC 處理器 | 4 到 192 | 32 到 1536 | NVIDIA L40S Tensor 核心 | 1 到 8 | 每個 GPU 48 個 | G5、P4 | 
| P3 | Intel Xeon 可擴充處理器 | 8 至 96 | 61 到 768 | NVIDIA Tesla V100 | 1 到 8 | 每個 GPU 16 個 (P3dn 每個 GPU 32 個) | G6e、P4 | 
| P4 | 第二代 Intel Xeon 可擴充處理器 | 96 | 1152 | NVIDIA A100 Tensor 核心 | 8 | 320 (P4de 為 640) | G6e | 
| P5 | 第三代 AMD EPYC 處理器 | 192 | 2000 | NVIDIA H100 Tensor 核心 | 8 | 640 | P4de | 

## 限制不足 (需要增加配額)
<a name="studio-updated-troubleshooting-insufficient-limit"></a>

當您在嘗試執行空間時收到下列錯誤訊息，就會發生此問題。

```
Error when creating application for space: ... : The account-level service limit is X Apps, with current utilization Y Apps and a request delta of 1 Apps. Please use Service Quotas to request an increase for this quota.
```

對於每個執行個體類型，您可以在每個 AWS 區域執行的執行個體數量有預設限制。此錯誤表示您已達到該限制。

若要解決此問題，請為您啟動空間 AWS 區域 的 請求增加執行個體限制。如需詳細資訊，請參閱[請求增加配額](https://docs.aws.amazon.com/servicequotas/latest/userguide/request-quota-increase.html)。

## 無法載入自訂映像
<a name="studio-updated-troubleshooting-custom-image"></a>

此問題會在從網域分離映像之前刪除 SageMaker AI 映像時發生。當您檢視網域的**環境**索引標籤時，即可看到此情況。

若要解決此問題，您需要建立與已刪除映像同名的臨時新映像、分離映像，然後刪除臨時映像。使用下列指示進行演練。

1. 如果您尚未這麼做，請啟動 [SageMaker AI 主控台](https://console.aws.amazon.com/sagemaker)。

1. 在左側導覽功能表的**管理員組態**下，選擇**網域**。

1. 選擇您的網域。

1. 選擇**環境**索引標籤。您會在此頁面上看到錯誤訊息。

1. 從映像 ARN 複製您的映像名稱。

1. 在左側導覽功能表的**管理員組態**下，選擇**映像**。

1. 選擇 **Create image** (建立映像)。

1. 請遵循程序中的步驟，但確定您的映像名稱與上面的映像名稱相同。

   如果您在 Amazon ECR 目錄中沒有映像，請參閱[建立自訂映像並推送至 Amazon ECR](studio-updated-byoi-how-to-prepare-image.md)中的指示。

1. 一旦建立了 SageMaker AI 映像，請導覽回您的網域**環境**索引標籤。您將看到連接至網域的映像。

1. 選取映像，然後選擇**分離**。

1. 遵循指示來分離和刪除臨時 SageMaker AI 映像。