Exécuter des conteneurs accélérés par GPU (Linux activé) EC2 - Amazon EKS

Aidez à améliorer cette page

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Pour contribuer à ce guide de l'utilisateur, cliquez sur le GitHub lien Modifier cette page sur qui se trouve dans le volet droit de chaque page.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Exécuter des conteneurs accélérés par GPU (Linux activé) EC2

Les systèmes Amazon Linux accélérés optimisés pour Amazon EKS AMIs sont basés sur le standard Amazon Linux optimisé pour Amazon EKS AMIs. Pour plus de détails à ce AMIs sujet, voirAmazon EKS a optimisé Amazon Linux accéléré AMIs. Le texte suivant décrit comment activer les charges de travail AWS basées sur les neurones.

Pour activer les charges de travail basées AWS sur Neuron (accélérateur ML)

Pour en savoir plus sur les charges de travail d'entraînement et d'inférence à l'aide de Neuron dans Amazon EKS, consultez les références suivantes :

La procédure suivante décrit comment exécuter une charge de travail sur une instance basée sur un GPU avec l'accélérateur optimisé Amazon EKS AMIs.

  1. Une fois que vos nœuds GPU ont rejoint votre cluster, vous devez appliquer le plug-in d'appareil NVIDIA pour Kubernetes DaemonSet sur votre cluster. vX.X.XRemplacez-le par la s-device-plugin version Nvidia/K8 de votre choix avant d'exécuter la commande suivante.

    kubectl apply -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/vX.X.X/deployments/static/nvidia-device-plugin.yml
  2. Vous pouvez vérifier que vos nœuds sont allouables à l' GPUs aide de la commande suivante.

    kubectl get nodes "-o=custom-columns=NAME:.metadata.name,GPU:.status.allocatable.nvidia\.com/gpu"
  3. Créez un fichier nommé nvidia-smi.yaml avec les contenus suivants. Remplacez-le par le tag tag de votre choix pour nvidia/cuda. Ce manifeste lance un conteneur NVIDIA CUDA qui s'exécute nvidia-smi sur un nœud.

    apiVersion: v1 kind: Pod metadata: name: nvidia-smi spec: restartPolicy: OnFailure containers: - name: nvidia-smi image: nvidia/cuda:tag args: - "nvidia-smi" resources: limits: nvidia.com/gpu: 1
  4. Appliquez le manifeste ci-dessus avec la commande suivante.

    kubectl apply -f nvidia-smi.yaml
  5. Une fois que le Pod a fini de fonctionner, consultez ses journaux à l'aide de la commande suivante.

    kubectl logs nvidia-smi

    L'exemple qui suit illustre un résultat.

    Mon Aug 6 20:23:31 20XX +-----------------------------------------------------------------------------+ | NVIDIA-SMI XXX.XX Driver Version: XXX.XX | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | |===============================+======================+======================| | 0 Tesla V100-SXM2... On | 00000000:00:1C.0 Off | 0 | | N/A 46C P0 47W / 300W | 0MiB / 16160MiB | 0% Default | +-------------------------------+----------------------+----------------------+ +-----------------------------------------------------------------------------+ | Processes: GPU Memory | | GPU PID Type Process name Usage | |=============================================================================| | No running processes found | +-----------------------------------------------------------------------------+