トラブルシューティング - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

トラブルシューティング

重要

2023 年 11 月 30 日以降、従来の Amazon SageMaker Studio のエクスペリエンスは Amazon SageMaker Studio Classic と名前が変更されました。以下のセクションは、更新後の Studio のエクスペリエンスに沿った内容になっています。Studio Classic アプリケーションを使用する場合は、「Amazon SageMaker Studio Classic」を参照してください。

重要

Amazon SageMaker Studio または Amazon SageMaker Studio Classic に Amazon SageMaker リソースの作成を許可するカスタム IAM ポリシーでは、これらのリソースにタグを追加するアクセス許可も付与する必要があります。Studio と Studio Classic は、作成したリソースに自動的にタグ付けするため、リソースにタグを追加するアクセス許可が必要になります。IAM ポリシーで Studio と Studio Classic によるリソースの作成が許可されていても、タグ付けが許可されていない場合は、リソースを作成しようとしたときに「AccessDenied」エラーが発生する可能性があります。詳細については、「SageMaker AI リソースにタグ付けのアクセス許可を付与する」を参照してください。

SageMaker リソースを作成するためのアクセス許可を付与する AWSAmazon SageMaker AI の マネージドポリシー には、それらのリソースの作成中にタグを追加するためのアクセス許可もあらかじめ含まれています。

このセクションでは、Amazon SageMaker Studio の一般的なトラブルシューティング方法について説明します。

復旧モード

復旧モードを使用すると、設定の問題が原因で通常の起動ができない場合にも Studio アプリケーションにアクセスできます。このモードでは、問題の診断と解決に役立つ重要な機能を備えたシンプルな環境が提供されます。

アプリケーションの起動に失敗すると、次のいずれかの設定の問題に対処するために、復旧モードにアクセスするよう求めるエラーメッセージが表示されることがあります。

  • .condarc ファイルが破損しています。

    .condarc ファイルのトラブルシューティングについては、「Conda ユーザーガイド」の「トラブルシューティング」ページを参照してください。

  • 使用可能なストレージボリュームが不足しています。

    アプリケーションで使用可能な Amazon スペース EBS ストレージを増やすか、復旧モードで不要なデータを削除できます。

    Amazon EBS ボリュームサイズを引き上げる方法については、「Service Quotas デベロッパーガイド」の「クォータサイズのリクエスト」を参照してください。

復旧モード:

  • ホームディレクトリは、通常の起動とは異なります。このディレクトリは一時的なものです。これは、標準のホームディレクトリの破損した設定が復旧モードでの操作に影響を与えないようにするためです。cd /home/sagemaker-user コマンドを使用すると、標準のホームディレクトリに移動できます。

    • 標準モード: /home/sagemaker-user

    • 復旧モード: /tmp/sagemaker-recovery-mode-home

  • conda 環境は、必須パッケージのみを含む最小限のベースである conda 環境を使用します。簡素化された conda セットアップは、環境に関する問題を分離しており、トラブルシューティングのための基本的な機能を提供します。

Studio UI または を使用してAWS CLI、リカバリモードでアプリケーションにアクセスできます。

復旧モードでアプリケーションにアクセスする手順を次に説明します。

  1. まだ起動していない場合は、「Amazon SageMaker AI コンソールから起動する」の手順に従って Studio UI を起動します。

  2. 左側のナビゲーションメニューで、[アプリケーション] の下にあるアプリケーションを選択します。

  3. 設定の問題があるスペースを選択します。

    次の手順は、上記の設定の問題が単数または複数ある場合に使用できます。この場合、警告バナーと復旧モードのメッセージが表示されます。

    注記

    警告バナーは、問題に対して推奨される解決策を提示します。先に進む前に、把握しておきます。

  4. [実行スペース (復旧モード)] を選択します。

  5. 復旧モードでアプリケーションにアクセスするには、[アプリケーションを開く (復旧モード)] をクリックします。

リカバリモードでアプリケーションにアクセスするには、create-appAWS CLI コマンド--recovery-modeに を追加する必要があります。復旧モードでアプリケーションにアクセスする方法の例を次に説明します。

次の例では以下が必要です。

Access Code Editor application in recovery mode
aws sagemaker create-app \ --app-name app-name \ --app-type CodeEditor \ --domain-id domain-id \ --space-name space-name \ --recovery-mode
Access JupyterLab application in recovery mode
aws sagemaker create-app \ --app-name app-name \ --app-type JupyterLab \ --domain-id domain-id \ --space-name space-name \ --recovery-mode

Code Editor または JupyterLab アプリケーションを削除できません

この問題は、ユーザーが Amazon SageMaker Studio で Studio でのみ利用可能なアプリケーションを作成し、その後デフォルトのエクスペリエンスを Studio Classic に戻した場合に発生します。結果として、ユーザーは Studio UI にアクセスできないため、Code-OSS、Visual Studio Code - Open Source、または JupyterLab ベースの Code Editor 用アプリケーションを削除できなくなります。

この問題を解決するには、 AWS Command Line Interface() を使用してアプリケーションを手動で削除できるように、管理者に通知しますAWS CLI。

EC2InsufficientCapacityError

この問題は、スペースを実行しようとしたときに、現在リクエストを満たすのに十分なオンデマンド容量AWSがない場合に発生します。

この問題を解決するには、次の手順に従います。

  • 数分間待ってからリクエストを再度送信してください。容量は頻繁に変化します。

  • スペースのインスタンスサイズまたはタイプを変えて実行します。

注記

容量は複数の Availability Zones で使用されます。使用可能な容量を最大化するために、すべての Availability Zones にサブネットを設定することをお勧めします。Studio は、ドメインで使用できるすべての Availability Zones で実行を試みます。

使用可能なインスタンスタイプはリージョンによって異なります。サポートされるインスタンスタイプについては、「Amazon SageMaker AI の料金」を参照してください。

次の表に、インスタンスファミリーと推奨される代替方法を示します。

インスタンスファミリー CPUタイプ vCPU メモリ (GiB) GPUタイプ GPUs GPU メモリ (GiB) 推奨される代替方法
G4dn 第 2 世代インテル Xeon スケーラブルプロセッサ 4~96 16~384 NVIDIA T4 Tensor コア 1~8 GPU あたり 16 G6
G5 第 2 世代 AMD EPYC プロセッサ 4~192 16~768 NVIDIA A10G Tensor コア 1~8 GPU あたり 24 G6e
G6 第 3 世代 AMD EPYC プロセッサ 4~192 16~768 NVIDIA L4 Tensor コア 1~8 GPU あたり 24 G4dn
G6e 第 3 世代 AMD EPYC プロセッサ 4~192 32~1536 NVIDIA L40S Tensor コア 1~8 GPU あたり 48 G5, P4
P3 インテル Xeon スケーラブルプロセッサ 8~96 61~768 NVIDIA Tesla V100 1~8 GPU あたり 16 (P3dn の場合は GPU あたり 32) G6e, P4
P4 第 2 世代インテル Xeon スケーラブルプロセッサ 96 1152 NVIDIA A100 Tensor コア 8 320 (P4de の場合は 640) G6e
P5 第 3 世代 AMD EPYC プロセッサ 192 2000 NVIDIA H100 Tensor コア 8 640 P4de

制限が不十分 (クォータの引き上げが必要)

この問題は、スペースの実行時に次のエラーメッセージが表示された場合に発生します。

Error when creating application for space: ... : The account-level service limit is X Apps, with current utilization Y Apps and a request delta of 1 Apps. Please useサービスクォータto request an increase for this quota.

各 AWS リージョンで実行できるインスタンスの数には、インスタンスタイプごとにデフォルトの制限があります。このエラーは、その制限に達したことを意味します。

この問題を解決するには、スペースを起動AWS リージョンする のインスタンス制限の引き上げをリクエストします。詳細については、「Requesting a quota increase」(クォータ引き上げのリクエスト) を参照してください。

カスタムイメージのロードに失敗しました

この問題は、ドメインからイメージをデタッチする前に SageMaker AI イメージが削除された場合に発生します。これは、ドメインの [環境] タブを表示すると確認できます。

この問題を解決するには、削除したイメージと同じ名前で新しい一時的なイメージを作成し、そのイメージをデタッチしてから、一時イメージを削除する必要があります。ウォークスルーについては、次の手順を使用してください。

  1. まだ起動していない場合は、SageMaker AI コンソールを起動します。

  2. 左側のナビゲーションで、[管理設定] の下にある [ドメイン] を選択します。

  3. ドメインを選択します。

  4. [環境] タブをクリックします。このページにエラーメッセージが表示されます。

  5. イメージ ARN からイメージ名をコピーします。

  6. 左側のナビゲーションで、[管理者設定] の下にある [イメージ] を選択します。

  7. [イメージを作成] を選択してください。

  8. 手順のステップに従います。ただし、イメージ名が上記のイメージ名と同じであることを確認します。

    Amazon ECR ディレクトリにイメージがない場合は、「カスタムイメージを作成して Amazon ECR にプッシュする」の手順を参照してください。

  9. SageMaker AI イメージを作成したら、ドメインの [環境] タブに戻ります。ドメインにアタッチされたイメージが表示されます。

  10. 該当イメージを選択して、[デタッチ] をクリックします。

  11. 手順に従って、一時的な SageMaker AI イメージをデタッチして削除します。