Utiliser l'accélérateur optimisé pour EKS AMIs pour les instances GPU - Amazon EKS

Aidez à améliorer cette page

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Pour contribuer à ce guide de l'utilisateur, cliquez sur le GitHub lien Modifier cette page sur qui se trouve dans le volet droit de chaque page.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utiliser l'accélérateur optimisé pour EKS AMIs pour les instances GPU

Amazon EKS prend en charge Amazon Linux et AMIs Bottlerocket optimisés pour EKS pour les instances GPU. Les accélérateurs optimisés pour EKS AMIs simplifient l'exécution des charges de travail d'intelligence artificielle et de machine learning dans les clusters EKS en fournissant des images de système d'exploitation prédéfinies et validées pour la pile Kubernetes accélérée. Outre les principaux composants Kubernetes inclus dans la version standard optimisée pour EKS AMIs, l'accélérateur optimisé pour EKS AMIs inclut les modules de noyau et les pilotes nécessaires pour exécuter le GPU NVIDIA et les instances EC2, ainsi que les instances AWS GPU GInferentia et P Trainium EC2 dans les clusters EKS.

Le tableau ci-dessous indique les types d'instances GPU pris en charge pour chaque variante d'AMI accélérée optimisée pour EKS. Consultez les AL2023 versions optimisées pour EKS et les versions de Bottlerocket GitHub pour connaître les dernières mises à jour des variantes de l'AMI.

Variante EKS AMI Types d'instances EC2

AL2023 x86_64 NVIDIA

p6-b300, p6-b200, p5, p5e, p5en, p4d, p4de, p3, p3dn, g7e, gr6, g6, g6e, g6f, gr6f, g5, g4dn

AL2023 ARM NVIDIA

p6e-gb200, 5 g, 5 g

AL2023 Neurone x86_64

inf1, inf2, trn1, trn2

Bottlerocket x86_64 aws-k8s-nvidia

p6-b300, p6-b200, p5, p5e, p5en, p4d, p4de, p3, p3dn, g7e, gr6, g6, g6e, g6f, gr6f, g5, g4dn

Bottlerocket aarch64/arm64 aws-k8s-nvidia

g/5g

Bottlerocket x86_64 aws-k8s

inf1, inf2, trn1, trn2

NVIDIA optimisé pour EKS AMIs

En utilisant le NVIDIA optimisé pour EKS AMIs, vous acceptez le contrat de licence utilisateur final (EULA) Cloud de NVIDIA.

Pour découvrir la dernière version de NVIDIA optimisée pour EKS AMIs, consultez Récupérez l'AMI Amazon Linux recommandée IDs et. Récupérer les ID d’AMI Bottlerocket recommandés

Lorsque vous utilisez Amazon Elastic Fabric Adaptor (EFA) avec EKS Optimized AL2023 ou Bottlerocket NVIDIA AMIs, vous devez installer le plug-in pour appareil EFA séparément. Pour de plus amples informations, veuillez consulter Exécuter un entraînement de machine learning sur Amazon EKS avec Elastic Fabric Adapter.

EKS AL2023 NVIDIA AMIs

Lorsque vous utilisez l'opérateur GPU NVIDIA avec le AL2023 NVIDIA optimisé pour EKS AMIs, vous devez désactiver l'installation du pilote et du kit d'outils par l'opérateur, car ceux-ci sont déjà inclus dans l'EKS. AMIs Les AL2023 cartes NVIDIA optimisées pour AMIs EKS n'incluent pas le plug-in de périphérique NVIDIA Kubernetes ni le pilote NVIDIA DRA, et ceux-ci doivent être installés séparément. Pour de plus amples informations, veuillez consulter Installer le plugin pour appareil NVIDIA Kubernetes.

Outre les composants EKS AMI standard, le AL2023 NVIDIA optimisé pour EKS AMIs inclut les composants suivants.

  • Pilote NVIDIA

  • Pilote en mode utilisateur NVIDIA CUDA

  • Boîte à outils pour conteneurs NVIDIA

  • Gestionnaire de tissus NVIDIA

  • NVIDIA a persisté

  • pilote NVIDIA IMEX

  • Gestionnaire de NVLink sous-réseaux NVIDIA

  • EFA minimal (module noyau et rdma-core)

Pour plus de détails sur le pilote de mode utilisateur NVIDIA CUDA et le CUDA runtime/libraries utilisés dans les conteneurs d'applications, consultez la documentation NVIDIA. La version CUDA présentée ici nvidia-smi est la version du pilote de mode utilisateur NVIDIA CUDA installé sur l'hôte, qui doit être compatible avec le CUDA runtime/libraries utilisé dans les conteneurs d'applications.

Le noyau de AMIs support AL2023 NVIDIA 6.12 optimisé pour EKS pour les versions 1.33 et supérieures de Kubernetes, et la version 580 du pilote NVIDIA pour toutes les versions de Kubernetes. Le pilote NVIDIA 580 est requis pour utiliser CUDA 13+.

Consultez les AL2023 versions optimisées pour EKS sur GitHub pour plus de détails sur les versions des composants incluses dans le. AMIs Consultez le script d'installation de l'AMI EKS AL2023 NVIDIA et le script de chargement du noyau pour plus de détails sur la façon dont les AMI EKS configurent les dépendances NVIDIA. Vous pouvez trouver la liste des packages installés et de leurs versions sur une instance EC2 en cours d'exécution à l'aide de la dnf list installed commande.

Lors de la création personnalisée AMIs avec l'EKS Optimized AMIs comme base, il n'est pas recommandé ou pris en charge d'exécuter une mise à niveau du système d'exploitation (par ex. dnf upgrade) ou mettez à niveau l'un des packages Kubernetes ou GPU inclus dans l'EKS Optimized AMIs, car cela risque de compromettre la compatibilité des composants. Si vous mettez à niveau le système d'exploitation ou les packages inclus dans l'EKS Optimized AMIs, il est recommandé de procéder à des tests approfondis dans un environnement de développement ou de préparation avant le déploiement en production.

Lors de la création d'instances personnalisées AMIs pour le GPU, il est recommandé de créer une AMIs configuration personnalisée distincte pour chaque génération et famille d'instances que vous allez exécuter. L'accélérateur optimisé pour EKS installe de AMIs manière sélective les pilotes et les packages au moment de l'exécution en fonction de la génération et de la famille du type d'instance sous-jacent. Pour plus d'informations, consultez les scripts EKS AMI pour l'installation et l'exécution.

EKS Bottlerocket NVIDIA AMIs

Lorsque vous utilisez l'opérateur GPU NVIDIA avec le Bottlerocket NVIDIA optimisé pour EKS AMIs, vous devez désactiver l'installation par l'opérateur du pilote, du kit d'outils et du plug-in de périphérique, car ceux-ci sont déjà inclus dans l'EKS. AMIs

Outre les composants EKS AMI standard, le Bottlerocket NVIDIA AMIs optimisé pour EKS inclut les composants suivants. Les dépendances minimales pour EFA (module noyau et rdma-core) sont installées dans toutes les variantes de Bottlerocket.

  • Plug-in pour appareil NVIDIA Kubernetes

  • Pilote NVIDIA

  • Pilote en mode utilisateur NVIDIA CUDA

  • Boîte à outils pour conteneurs NVIDIA

  • Gestionnaire de tissus NVIDIA

  • NVIDIA a persisté

  • pilote NVIDIA IMEX

  • Gestionnaire de NVLink sous-réseaux NVIDIA

  • Gestionnaire NVIDIA MIG

Pour plus de détails sur le pilote de mode utilisateur NVIDIA CUDA et le CUDA runtime/libraries utilisés dans les conteneurs d'applications, consultez la documentation NVIDIA. La version CUDA présentée ici nvidia-smi est la version du pilote de mode utilisateur NVIDIA CUDA installé sur l'hôte, qui doit être compatible avec le CUDA runtime/libraries utilisé dans les conteneurs d'applications.

Consultez les informations de version de Bottlerocket dans la documentation de Bottlerocket pour plus de détails sur les packages installés et leurs versions. Le Bottlerocket NVIDIA, optimisé pour EKS, prend en AMIs charge le noyau 6.12 pour les versions 1.33 et supérieures de Kubernetes, et la version 580 du pilote NVIDIA pour les versions 1.34 et supérieures de Kubernetes. Le pilote NVIDIA 580 est requis pour utiliser CUDA 13+.

Neuron optimisé pour EKS AMIs

Pour en savoir plus sur la façon d'exécuter des charges de travail d'entraînement et d'inférence à l'aide de Neuron avec Amazon EKS, consultez les références suivantes :

Pour trouver le dernier Neuron optimisé pour EKS AMIs, consultez et. Récupérez l'AMI Amazon Linux recommandée IDs Récupérer les ID d’AMI Bottlerocket recommandés

Lorsque vous utilisez Amazon Elastic Fabric Adaptor (EFA) avec l'EKS Optimized AL2023 ou le Bottlerocket Neuron AMIs, vous devez installer le plug-in pour appareil EFA séparément. Pour de plus amples informations, veuillez consulter Exécuter un entraînement de machine learning sur Amazon EKS avec Elastic Fabric Adapter.

AL2023 Neurone EKS AMIs

Les AL2023 Neuron optimisés pour EKS n'incluent AMIs pas le plug-in de périphérique Neuron Kubernetes ni l'extension du planificateur Neuron Kubernetes, et ceux-ci doivent être installés séparément. Pour de plus amples informations, veuillez consulter Installer le plugin pour appareil Neuron Kubernetes.

Outre les composants EKS AMI standard, le AL2023 Neuron optimisé pour EKS AMIs inclut les composants suivants.

  • pilote neuronal () aws-neuronx-dkms

  • Outils Neuron () aws-neuronx-tools

  • EFA minimal (module noyau et rdma-core)

Consultez le script d'installation de l'AMI EKS AL2023 Neuron pour plus de détails sur la façon dont l'EKS AMIs configure les dépendances des neurones. Consultez les AL2023 versions optimisées pour EKS ci-dessous GitHub pour voir les versions des composants incluses dans les AMI. Vous pouvez trouver la liste des packages installés et de leurs versions sur une instance EC2 en cours d'exécution à l'aide de la dnf list installed commande.

EKS Bottlerocket Neuron AMIs

Les variantes standard de Bottlerocket (aws-k8s) incluent les dépendances Neuron qui sont automatiquement détectées et chargées lors de l'exécution sur des instances Inferentia ou Trainium EC2. AWS

Les Bottlerocket optimisés pour EKS n'incluent AMIs pas le plug-in d'appareil Neuron Kubernetes ni l'extension de planificateur Neuron Kubernetes, et ceux-ci doivent être installés séparément. Pour de plus amples informations, veuillez consulter Installer le plugin pour appareil Neuron Kubernetes.

Outre les composants EKS AMI standard, le Bottlerocket AMIs Neuron optimisé pour EKS inclut les composants suivants.

  • pilote neuronal () aws-neuronx-dkms

  • EFA minimal (module noyau et rdma-core)

Lorsque vous utilisez le Bottlerocket optimisé pour EKS AMIs avec des instances de Neuron, les éléments suivants doivent être configurés dans les données utilisateur de Bottlerocket. Ce paramètre permet au conteneur de s'approprier le dispositif Neuron monté en fonction des runAsGroup valeurs runAsUser et fournies dans la spécification de charge de travail. Pour plus d'informations sur le support des neurones dans Bottlerocket, consultez le fichier Quickstart on EKS readme on. GitHub

[settings] [settings.kubernetes] device-ownership-from-security-context = true

Consultez le journal des modifications du kit de noyau Bottlerocket pour plus d'informations sur la version du pilote Neuron incluse dans le Bottlerocket optimisé pour EKS. AMIs