Utiliser l'accélérateur optimisé pour EKS AMIs pour les instances GPU - Amazon EKS

Aidez à améliorer cette page

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Pour contribuer à ce guide de l'utilisateur, cliquez sur le GitHub lien Modifier cette page sur qui se trouve dans le volet droit de chaque page.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utiliser l'accélérateur optimisé pour EKS AMIs pour les instances GPU

Amazon EKS prend en charge Amazon Linux et AMIs Bottlerocket optimisés pour EKS pour les instances GPU. Les accélérateurs optimisés pour EKS AMIs simplifient l'exécution des charges de travail d'intelligence artificielle et de machine learning dans les clusters EKS en fournissant des images de système d'exploitation prédéfinies et validées pour la pile Kubernetes accélérée. Outre les principaux composants Kubernetes inclus dans la version standard optimisée pour EKS AMIs, l'accélérateur optimisé pour EKS AMIs inclut les modules de noyau et les pilotes nécessaires pour exécuter le GPU et les instances NVIDIA, ainsi que les P EC2 instances AWS GPU Inferentia G et Trainium dans les clusters EKS. EC2

Le tableau ci-dessous indique les types d'instances GPU pris en charge pour chaque variante d'AMI accélérée optimisée pour EKS. Consultez les versions AL2023 optimisées pour EKS et les versions de Bottlerocket GitHub pour les dernières mises à jour des variantes de l'AMI.

Variante EKS AMI EC2 types d'instances

AL2NVIDIA 023 x86_64

p6-b300, p6-b200, p5, p5e, p5en, p4d, p4de, p3, p3dn, gr6, g6, g6e, g6f, gr6f, gr6f, g5, g4dn

AL2203 ARM NVIDIA

p6e-gb200, 5 g, 5 g

AL2Neurone 023 x86_64

inf1, inf2, trn1, trn2

Bottlerocket x86_64 aws-k8s-nvidia

p6-b300, p6-b200, p5, p5e, p5en, p4d, p4de, p3, p3dn, gr6, g6, g6e, g6f, gr6f, gr6f, g5, g4dn

Bottlerocket AARCH64/ARM64 AWS-K8S-NVIDIA

g/5g

Bottlerocket x86_64 aws-k8s

inf1, inf2, trn1, trn2

NVIDIA optimisé pour EKS AMIs

En utilisant le NVIDIA optimisé pour EKS AMIs, vous acceptez le contrat de licence utilisateur final (EULA) Cloud de NVIDIA.

Pour découvrir la dernière version de NVIDIA optimisée pour EKS AMIs, consultez Récupérez l'AMI Amazon Linux recommandée IDs et. Récupérer les ID d’AMI Bottlerocket recommandés

Lorsque vous utilisez Amazon Elastic Fabric Adaptor (EFA) avec le AL2 023 optimisé pour EKS ou le Bottlerocket NVIDIA AMIs, vous devez installer le plug-in pour appareil EFA séparément. Pour de plus amples informations, veuillez consulter Exécuter un entraînement de machine learning sur Amazon EKS avec Elastic Fabric Adapter.

EKS AL2 023 NVIDIA AMIs

Lorsque vous utilisez l'opérateur GPU NVIDIA avec le NVIDIA AL2 023 optimisé pour EKS AMIs, vous devez désactiver l'installation du pilote et du kit d'outils par l'opérateur, car ceux-ci sont déjà inclus dans l'EKS. AMIs Les AL2 023 NVIDIA optimisés pour EKS AMIs n'incluent pas le plug-in de périphérique NVIDIA Kubernetes ni le pilote NVIDIA DRA, et ceux-ci doivent être installés séparément. Pour de plus amples informations, veuillez consulter Installer le plugin pour appareil NVIDIA Kubernetes.

Outre les composants EKS AMI standard, le NVIDIA AL2 023 optimisé pour EKS AMIs inclut les composants suivants.

  • Pilote NVIDIA

  • Pilote en mode utilisateur NVIDIA CUDA

  • Boîte à outils pour conteneurs NVIDIA

  • Gestionnaire de tissus NVIDIA

  • NVIDIA a persisté

  • pilote NVIDIA IMEX

  • Gestionnaire de NVLink sous-réseaux NVIDIA

  • EFA minimal (module noyau et rdma-core)

Pour plus de détails sur le pilote de mode utilisateur NVIDIA CUDA et le CUDA runtime/libraries utilisés dans les conteneurs d'applications, consultez la documentation NVIDIA. La version CUDA présentée ici nvidia-smi est la version du pilote de mode utilisateur NVIDIA CUDA installé sur l'hôte, qui doit être compatible avec le CUDA runtime/libraries utilisé dans les conteneurs d'applications.

Le noyau NVIDIA AL2 023 optimisé pour EKS prend en AMIs charge le noyau 6.12 pour les versions 1.33 et supérieures de Kubernetes, et la version 580 du pilote NVIDIA pour toutes les versions de Kubernetes. Le pilote NVIDIA 580 est requis pour utiliser CUDA 13+.

Consultez les versions AL2 023 optimisées pour EKS ci-dessous GitHub pour plus de détails sur les versions des composants incluses dans le. AMIs Consultez le script d'installation de l'AMI NVIDIA EKS AL2 023 et le script de chargement du noyau pour plus de détails sur la façon dont l'EKS AMIs configure les dépendances NVIDIA. Vous pouvez trouver la liste des packages installés et de leurs versions sur une EC2 instance en cours d'exécution à l'aide de la dnf list installed commande.

Lors de la création personnalisée AMIs avec l'EKS Optimized AMIs comme base, il n'est pas recommandé ou pris en charge d'exécuter une mise à niveau du système d'exploitation (par ex. dnf upgrade) ou mettez à niveau l'un des packages Kubernetes ou GPU inclus dans l'EKS Optimized AMIs, car cela risque de compromettre la compatibilité des composants. Si vous mettez à niveau le système d'exploitation ou les packages inclus dans l'EKS Optimized AMIs, il est recommandé de procéder à des tests approfondis dans un environnement de développement ou de préparation avant le déploiement en production.

Lors de la création d'instances personnalisées AMIs pour le GPU, il est recommandé de créer une AMIs configuration personnalisée distincte pour chaque génération et famille d'instances que vous allez exécuter. L'accélérateur optimisé pour EKS installe de AMIs manière sélective les pilotes et les packages au moment de l'exécution en fonction de la génération et de la famille du type d'instance sous-jacent. Pour plus d'informations, consultez les scripts EKS AMI pour l'installation et l'exécution.

EKS Bottlerocket NVIDIA AMIs

Lorsque vous utilisez l'opérateur GPU NVIDIA avec le Bottlerocket NVIDIA optimisé pour EKS AMIs, vous devez désactiver l'installation par l'opérateur du pilote, du kit d'outils et du plug-in de périphérique, car ceux-ci sont déjà inclus dans l'EKS. AMIs

Outre les composants EKS AMI standard, le Bottlerocket NVIDIA AMIs optimisé pour EKS inclut les composants suivants. Les dépendances minimales pour EFA (module noyau et rdma-core) sont installées dans toutes les variantes de Bottlerocket.

  • Plug-in pour appareil NVIDIA Kubernetes

  • Pilote NVIDIA

  • Pilote en mode utilisateur NVIDIA CUDA

  • Boîte à outils pour conteneurs NVIDIA

  • Gestionnaire de tissus NVIDIA

  • NVIDIA a persisté

  • pilote NVIDIA IMEX

  • Gestionnaire de NVLink sous-réseaux NVIDIA

  • Gestionnaire NVIDIA MIG

Pour plus de détails sur le pilote de mode utilisateur NVIDIA CUDA et le CUDA runtime/libraries utilisés dans les conteneurs d'applications, consultez la documentation NVIDIA. La version CUDA présentée ici nvidia-smi est la version du pilote de mode utilisateur NVIDIA CUDA installé sur l'hôte, qui doit être compatible avec le CUDA runtime/libraries utilisé dans les conteneurs d'applications.

Consultez les informations de version de Bottlerocket dans la documentation de Bottlerocket pour plus de détails sur les packages installés et leurs versions. Le Bottlerocket NVIDIA, optimisé pour EKS, prend en AMIs charge le noyau 6.12 pour les versions 1.33 et supérieures de Kubernetes, et la version 580 du pilote NVIDIA pour les versions 1.34 et supérieures de Kubernetes. Le pilote NVIDIA 580 est requis pour utiliser CUDA 13+.

Neuron optimisé pour EKS AMIs

Pour en savoir plus sur la façon d'exécuter des charges de travail d'entraînement et d'inférence à l'aide de Neuron avec Amazon EKS, consultez les références suivantes :

Pour trouver le dernier Neuron optimisé pour EKS AMIs, consultez et. Récupérez l'AMI Amazon Linux recommandée IDs Récupérer les ID d’AMI Bottlerocket recommandés

Lorsque vous utilisez Amazon Elastic Fabric Adaptor (EFA) avec le AL2 023 optimisé pour EKS ou le Bottlerocket Neuron AMIs, vous devez installer le plug-in pour appareil EFA séparément. Pour de plus amples informations, veuillez consulter Exécuter un entraînement de machine learning sur Amazon EKS avec Elastic Fabric Adapter.

Neurone EKS AL2 023 AMIs

Les AL2 023 Neuron optimisés pour EKS n'incluent AMIs pas le plug-in d'appareil Neuron Kubernetes ni l'extension de planificateur Neuron Kubernetes, et ceux-ci doivent être installés séparément. Pour de plus amples informations, veuillez consulter Installer le plugin pour appareil Neuron Kubernetes.

Outre les composants EKS AMI standard, le AL2 023 Neuron optimisé pour EKS AMIs inclut les composants suivants.

  • pilote neuronal () aws-neuronx-dkms

  • Outils Neuron () aws-neuronx-tools

  • EFA minimal (module noyau et rdma-core)

Consultez le script d'installation de l'AMI Neuron EKS AL2 023 pour plus de détails sur la façon dont l'EKS AMIs configure les dépendances des neurones. Consultez les versions AL2023 optimisées pour EKS ci-dessous GitHub pour voir les versions des composants incluses dans le. AMIs Vous pouvez trouver la liste des packages installés et de leurs versions sur une EC2 instance en cours d'exécution à l'aide de la dnf list installed commande.

EKS Bottlerocket Neuron AMIs

Les variantes standard de Bottlerocket (aws-k8s) incluent les dépendances Neuron qui sont automatiquement détectées et chargées lors de l'exécution sur des instances Inferentia ou Trainium. AWS EC2

Les Bottlerocket optimisés pour EKS n'incluent AMIs pas le plug-in d'appareil Neuron Kubernetes ni l'extension de planificateur Neuron Kubernetes, et ceux-ci doivent être installés séparément. Pour de plus amples informations, veuillez consulter Installer le plugin pour appareil Neuron Kubernetes.

Outre les composants EKS AMI standard, le Bottlerocket AMIs Neuron optimisé pour EKS inclut les composants suivants.

  • pilote neuronal () aws-neuronx-dkms

  • EFA minimal (module noyau et rdma-core)

Lorsque vous utilisez le Bottlerocket optimisé pour EKS AMIs avec des instances de Neuron, les éléments suivants doivent être configurés dans les données utilisateur de Bottlerocket. Ce paramètre permet au conteneur de s'approprier le dispositif Neuron monté en fonction des runAsGroup valeurs runAsUser et fournies dans la spécification de charge de travail. Pour plus d'informations sur le support des neurones dans Bottlerocket, consultez le fichier Quickstart on EKS readme on. GitHub

[settings] [settings.kubernetes] device-ownership-from-security-context = true

Consultez le journal des modifications du kit de noyau Bottlerocket pour plus d'informations sur la version du pilote Neuron incluse dans le Bottlerocket optimisé pour EKS. AMIs