

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# Amazon SageMaker Studio Classic 故障診斷
<a name="studio-troubleshooting"></a>

**重要**  
自 2023 年 11 月 30 日起，先前的 Amazon SageMaker Studio 體驗現在命名為 Amazon SageMaker Studio Classic。下節專門介紹如何使用 Studio Classic 應用程式。如需使用已更新 Studio 體驗的資訊，請參閱 [Amazon SageMaker Studio](studio-updated.md)。  
Studio Classic 仍會針對現有工作負載進行維護，但無法再用於加入。您只能停止或刪除現有的 Studio Classic 應用程式，而且無法建立新的應用程式。建議您[將工作負載遷移至新的 Studio 體驗](studio-updated-migrate.md)。

**重要**  
允許 Amazon SageMaker Studio 或 Amazon SageMaker Studio Classic 建立 Amazon SageMaker 資源的自訂 IAM 政策也必須授予許可，才能將標籤新增至這些資源。需要將標籤新增至資源的許可，因為 Studio 和 Studio Classic 會自動標記它們建立的任何資源。如果 IAM 政策允許 Studio 和 Studio Classic 建立資源，但不允許標記，則在嘗試建立資源時可能會發生 "AccessDenied" 錯誤。如需詳細資訊，請參閱[提供標記 SageMaker AI 資源的許可](security_iam_id-based-policy-examples.md#grant-tagging-permissions)。  
提供許可來建立 SageMaker 資源的 [AWS Amazon SageMaker AI 的 受管政策](security-iam-awsmanpol.md) 已包含建立這些資源時新增標籤的許可。

本主題描述如何對安裝和使用期間常見的 Amazon SageMaker Studio Classic 問題進行故障診斷。以下是使用 Amazon SageMaker Studio Classic 時可能發生的常見錯誤。每個錯誤後面都附有解決方案。

## Studio Classic 應用程式問題
<a name="studio-troubleshooting-ui"></a>

 啟動和使用 Studio Classic 應用程式時，發生下列問題。
+ **螢幕沒有載入：清除工作區和等待都沒有用**

  啟動 Studio Classic 應用程式時，快顯視窗顯示以下消息。無論選取哪個選項，Studio Classic 都不會載入。

  ```
  Loading...
  The loading screen is taking a long time. Would you like to clear the workspace or keep waiting?
  ```

  如果 Studio Classic 工作區中開啟了多個標籤，或 Amazon EFS 上有多個檔案，Studio Classic 應用程式可能會有啟動延遲的情況。Studio Classic 工作區準備就緒後，此快顯視窗應該會在幾秒鐘內消失。

  如果在選擇其中一個選項後繼續看到旋轉中的載入畫面，則 Studio Classic 使用的 Amazon Virtual Private Cloud 可能存在連線問題。  

  若要解決 Studio Classic 使用的 Amazon Virtual Private Cloud (Amazon VPC) 連線問題，請驗證以下網路組態：
  + 如果您的網域是在 `VpcOnly` 模式下設定：請確認有 的 Amazon VPC 端點 AWS STS，或傳出流量的 NAT Gateway，包括透過網際網路的流量。如要執行此操作，請依照[將 VPC 中的 Studio 筆記本連線至外部資源](studio-notebooks-and-internet-access.md)中的步驟進行。
  + 如果您的 Amazon VPC 是使用自訂 DNS 而非 Amazon 提供的 DNS 設定：針對每個新增至 Studio Classic 所使用 Amazon VPC 的 VPC 端點，確認路由是使用動態主機組態協定 (DHCP) 設定的。如需設定預設和自訂 DHCP 選項集的更多相關資訊，請參閱 [Amazon VPC 中的 DHCP 選項集](https://docs.aws.amazon.com/vpc/latest/userguide/VPC_DHCP_Options.html)。
+ **啟動 Studio Classic 時出現**內部故障****

  啟動 Studio Classic 時，你無法檢視 Studio Classic UI。您也會看到類似下列內容的錯誤，錯誤詳細資訊為**內部故障**。

  ```
  Amazon SageMaker Studio
  The JupyterServer app default encountered a problem and was stopped.
  ```

  此錯誤可能是由多種原因引起的。如果完成這些步驟無法解決您的問題，請使用 https://aws.amazon.com/premiumsupport/ 建立問題。  
  + **缺少 Amazon EFS 掛載目標**：Studio Classic 使用 Amazon EFS 進行儲存。Amazon EFS 磁碟區需要為 Amazon SageMaker AI 網域建立所在的每個子網路設定一個掛載目標。如果意外刪除此 Amazon EFS 掛載目標，則 Studio Classic 應用程式無法載入，因為它無法掛載使用者的檔案目錄。如要解決此問題，請嘗試下列步驟：

**驗證或建立掛載目標。**

    1. 使用 [DescribeDomain](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeDomain.html) 網域 API 呼叫尋找與網域相關聯的 Amazon EFS 磁碟區。  

    1. 登入 AWS 管理主控台 ，並在 https：// 開啟 Amazon EFS 主控台。 [ https://console.aws.amazon.com/efs/](https://console.aws.amazon.com/efs/)

    1. 從 Amazon EFS 磁碟區清單中，選取與網域關聯的 Amazon EFS 磁碟區。

    1. 在 Amazon EFS 詳細資訊頁面上，選取**網路**索引標籤。確認設定網域的所有子網路都有掛載目標。

    1. 如果掛載目標遺失，請新增遺失的 Amazon EFS 掛載目標。如需指示，請參閱[建立和管理掛載目標和安全群組](https://docs.aws.amazon.com/efs/latest/ug/accessing-fs.html)。

    1. 建立遺失的掛載目標後，啟動 Studio Classic 應用程式。
  + **使用者 `.local` 資料夾中的檔案衝突**：如果您在 Studio Classic 上使用 JupyterLab 第 1 版，`.local` 資料夾中衝突的程式庫可能會在啟動 Studio Classic 應用程式時造成問題。若要解決此問題，請將您的使用者設定檔的預設 JupyterLab 版本更新為 JupyterLab 3.0。如需檢視和更新 JupyterLab 版本的更多相關資訊，請參閱[Amazon SageMaker Studio Classic 中的 JupyterLab 版本控制](studio-jl.md)。
+ **啟動 Studio Classic 時出現 **ConfigurationError: LifecycleConfig****

  啟動 Studio Classic 時，您無法檢視 Studio Classic UI。這是因為連接至網域的預設生命週期組態指令碼發生問題。

**解決生命週期組態問題**

  1. 檢視生命週期組態的 Amazon CloudWatch Logs，以追蹤導致失敗的命令。若要檢視記錄，請遵循 [從 CloudWatch Logs 驗證生命週期組態程序](studio-lcc-debug.md#studio-lcc-debug-logs) 中的步驟。

  1. 從使用者設定檔或網域中分離預設指令碼。如需詳細資訊，請參閱[在 Amazon SageMaker Studio Classic 中更新和分離生命週期組態](studio-lcc-delete.md)。

  1. 啟動 Studio Classic 應用程式。

  1. 偵錯生命週期組態指令碼。您可以從系統終端執行生命週期組態指令碼以進行故障診斷。當指令碼從終端成功執行時，您可以將指令碼連接到使用者設定檔或網域。
+ **無法使用 SageMaker Studio Classic 核心功能。**

  如果您在開啟 Studio Classic 時收到此錯誤訊息，則可能是由於 Python 套件版本衝突造成的。如果您在筆記本或終端機中使用下列命令來安裝與 SageMaker AI 套件相依性發生版本衝突的 Python 套件，就會發生這種情況。

  ```
  !pip install
  ```

  ```
  pip install --user
  ```

  請嘗試下列步驟來解決此問題：

  1. 解除安裝最近安裝的 Python 套件。如果您不確定要解除安裝哪個套件，請使用 https://aws.amazon.com/premiumsupport/ 建立問題。 

  1. 重新啟動 Studio Classic：

     1. 從**檔案**功能表關閉 Studio Classic。

     1. 等待一分鐘。

     1. 重新開啟 Studio Classic，方法是重新整理頁面或從 AWS 管理主控台將其開啟。

  如果您解除安裝導致衝突的套件，則應該解決此問題。若要在不再次造成此問題的情況下安裝套件，使用 `%pip install` 但沒有 `--user` 旗標。

  如果問題仍然存在，請建立新的使用者設定檔，並使用該使用者設定檔設定您的環境。

  如果這些解決方案無法解決問題，請使用 https://aws.amazon.com/premiumsupport/ 建立問題。 
+ **無法從 AWS 管理主控台開啟 Studio Classic。**

  如果您無法開啟 Studio Classic 且無法使用所有預設設定建立新的執作中執行個體，請透過 https://aws.amazon.com/premiumsupport/ 建立問題。 

## KernelGateway 應用程式問題
<a name="studio-troubleshooting-kg"></a>

 下列問題是 Studio Classic 中啟動的 KernelGateway 應用程式特有的。
+ **無法存取核心工作階段**

  當使用者啟動新筆記本時，他們無法連線至筆記本工作階段。如果 KernelGateway 應用程式的狀態為 `In Service`，則您可以驗證下列各項以解決問題。
  + **檢查安全群組組態**

    如果網域是以 `VPCOnly` 模式設定，則與該網域關聯的安全群組必須允許 `8192-65535` 範圍內通訊埠之間的流量，以便在 JupyterServer 和 KernelGateway 應用程式之間進行連線。

**驗證安全群組規則**

    1. 使用 [DescribeDomain](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeDomain.html) API 呼叫取得與網域相關聯的安全群組。

    1. 登入 AWS 管理主控台 並開啟位於 https：//[https://console.aws.amazon.com/vpc/](https://console.aws.amazon.com/vpc/) 的 Amazon VPC 主控台。

    1. 在導覽窗格中，在**安全**下，選擇**安全群組**。

    1. 篩選出安全群組 ID 皆與網域相關。

    1. 針對每個安全群組：

       1. 選取安全群組。

       1. 在安全群組詳細資訊頁面中，檢視**傳入規則**。確認 `8192-65535` 範圍內的連接埠之間允許流量。

    如需安全群組規則的更多相關資訊，請參閱[使用安全群組控制到資源的流量](https://docs.aws.amazon.com/vpc/latest/userguide/VPC_SecurityGroups.html#working-with-security-group-rules)。如需在 `VPCOnly` 模式下使用 Studio Classic 之要求的詳細資訊，請參閱[將 VPC 中的 Studio 筆記本連線至外部資源](studio-notebooks-and-internet-access.md)。
  + **驗證防火牆和 WebSocket 連接**

    如果 KernelGateway 應用程式具有 `InService` 狀態，且使用者無法連線至 Studio Classic 筆記本工作階段，請驗證防火牆和 WebSocket 設定。

    1. 啟動 Studio Classic 應用程式。如需詳細資訊，請參閱[啟動 Amazon SageMaker Studio Classic](studio-launch.md)。

    1. 開啟網路瀏覽器的開發人員工具列。

    1. 選擇**網路**標籤。

    1. 搜尋符合下列格式的項目。

       ```
       wss://<domain-id>.studio.<region>.sagemaker.aws/jupyter/default/api/kernels/<unique-code>/channels?session_id=<unique-code>
       ```

       如果項目的狀態或回應代碼不是 `101`，則您的網路設定會阻止 Studio Classic 應用程式與 KernelGateway 應用程式之間的連線。

       若要解決這個問題，請連絡管理您網路設定的小組，以允許列出 Studio Classic URL 並啟用 WebSocket 連線。  
+ **因超出資源配額而無法啟動應用程式**

  當使用者嘗試啟動新筆記本時，建立筆記本會失敗，並出現下列其中一個錯誤。這是因為超出資源配額所致。
  + 

    ```
    Unable to start more Apps of AppType [KernelGateway] and ResourceSpec(instanceType=[]) for UserProfile []. Please delete an App with a matching AppType and ResourceSpec, then try again
    ```

    Studio Classic 在同一個執行個體上最多支援四個執行中的 KernelGateway 應用程式。若要解決此問題，您可以執行下列項目之一：
    + 刪除執行個體上執行的現有 KernelGateway 應用程式，然後重新啟動新筆記本。
    + 在不同的執行個體類型上啟動新筆記本

     如需詳細資訊，請參閱[變更 Amazon SageMaker Studio Classic 筆記本的執行個體類型](notebooks-run-and-manage-switch-instance-type.md)。
  + 

    ```
    An error occurred (ResourceLimitExceeded) when calling the CreateApp operation
    ```

    在這種情況下，帳戶沒有足夠的限制，無法在指定的執行個體類型上建立 Studio Classic 應用程式。若要解決此問題，請前往位於 https：//[https://console.aws.amazon.com/servicequotas/](https://console.aws.amazon.com/servicequotas/) 的 Service Quotas 主控台。在該控制台中，請求增加 `Studio KernelGateway Apps running on instance-type instance` 限制。如需更多相關資訊，請參閱 [AWS Service Quotas](https://docs.aws.amazon.com/general/latest/gr/aws_service_limits.html)。