View a markdown version of this page

NVIDIA GPU プラグインの欠落エラー - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

NVIDIA GPU プラグインの欠落エラー

使用可能な GPU ノードがあるにもかかわらず、モデルのデプロイは GPU 不足エラーで失敗します。これは、NVIDIA デバイスプラグインが HyperPod クラスターにインストールされていない場合に発生します。

エラーメッセージ:

0/15 nodes are available: 10 node(s) didn't match Pod's node affinity/selector, 5 Insufficient nvidia.com/gpu. preemption: 0/15 nodes are available: 10 Preemption is not helpful for scheduling, 5 No preemption victims found for incoming pod.

根本原因:

  • Kubernetes が NVIDIA デバイスプラグインなしで GPU リソースを検出できない

  • GPU ワークロードのスケジューリングが失敗する

解決策:

以下を実行して NVIDIA GPU プラグインをインストールします。

kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/refs/tags/v0.17.1/deployments/static/nvidia-device-plugin.yml

検証ステップ:

  1. プラグインのデプロイステータスを確認します。

    kubectl get pods -n kube-system | grep nvidia-device-plugin
  2. GPU リソースが表示されるようになりました。

    kubectl get nodes -o=custom-columns=NAME:.metadata.name,GPU:.status.allocatable.nvidia\\.com/gpu
  3. モデルのデプロイを再試行する

注記

NVIDIA ドライバーが GPU ノードにインストールされていることを確認します。プラグインのインストールは、クラスターごとに 1 回限りのセットアップです。インストールにはクラスター管理者権限が必要になる場合があります。