Aidez à améliorer cette page
Pour contribuer à ce guide de l’utilisateur, cliquez sur le lien Modifier cette page sur GitHub qui se trouve dans le volet droit de chaque page.
Ressources pour démarrer avec l’IA/ML sur Amazon EKS
Pour vous lancer dans le machine learning sur EKS, commencez par choisir parmi ces modèles prescriptifs afin de préparer rapidement un cluster EKS et le logiciel et le matériel ML nécessaires pour commencer à exécuter des charges de travail ML.
Ateliers
Atelier sur l’IA générative sur Amazon EKS
Découvrez comment vous lancer avec les applications et l’inférence de grands modèles de langage (LLM) sur Amazon EKS. Découvrez comment déployer et gérer des charges de travail LLM de niveau production. Grâce à des ateliers pratiques, vous explorerez comment tirer parti d’Amazon EKS ainsi que des services AWS et des outils open source pour créer des solutions LLM robustes. L’environnement de l’atelier fournit toute l’infrastructure et tous les outils nécessaires, vous permettant de vous concentrer sur l’apprentissage et la mise en œuvre.
IA générative sur Amazon EKS à l’aide de Neuron
Découvrez comment vous lancer avec les applications et l’inférence de grands modèles de langage (LLM) sur Amazon EKS. Découvrez comment déployer et gérer des charges de travail LLM de niveau production, mettre en œuvre des modèles RAG avancés avec des bases de données vectorielles et créer des applications LLM basées sur des données à l’aide de cadres open source. Grâce à des ateliers pratiques, vous explorerez comment tirer parti d’Amazon EKS ainsi que des services AWS et des outils open source pour créer des solutions LLM robustes. L’environnement de l’atelier fournit toute l’infrastructure et tous les outils nécessaires, vous permettant de vous concentrer sur l’apprentissage et la mise en œuvre.
Bonnes pratiques
Les rubriques consacrées à l’IA/ML dans le guide des bonnes pratiques Amazon EKS fournissent des recommandations détaillées dans les domaines suivants afin d’optimiser vos charges de travail IA/ML sur Amazon EKS.
Calcul et auto-scaling IA/ML
Cette section présente les bonnes pratiques pour optimiser le calcul et l’auto-scaling IA/ML dans Amazon EKS, en mettant l’accent sur la gestion des ressources GPU, la résilience des nœuds et le scaling des applications. Elle fournit des stratégies telles que la planification des charges de travail avec des étiquettes bien connues et l’affinité des nœuds, l’utilisation de blocs de capacité ML ou de réserves de capacité à la demande, et la mise en œuvre de la surveillance de l’état des nœuds avec des outils tels que EKS Node Monitoring Agent.
Mise en réseau IَََََA/ML
Cette section présente les bonnes pratiques pour optimiser la mise en réseau AI/ML dans Amazon EKS afin d’améliorer les performances et la capacité de mise à l’échelle, notamment des stratégies telles que la sélection d’instances avec une bande passante du réseau plus élevée ou Elastic Fabric Adapter (EFA) pour l’entraînement distribué, l’installation d’outils tels que MPI et NCCL, et l’activation de la délégation de préfixe pour augmenter les adresses IP et améliorer les temps de lancement des pods.
Sécurité IَََََA/ML
Cette section se concentre sur la sécurisation du stockage de données et la garantie de la conformité des charges de travail IA/ML sur Amazon EKS, notamment grâce à des pratiques telles que l’utilisation d’Amazon S3 avec AWS Key Management Service (KMS) pour le chiffrement côté serveur (SSE-KMS), la configuration de compartiments avec des clés KMS régionales et des clés de compartiment S3 pour réduire les coûts, l’octroi d’autorisations IAM pour les actions KMS telles que le déchiffrement aux pods EKS, et l’audit avec les journaux AWS CloudTrail.
Stockage IَََََA/ML
Cette section présente les bonnes pratiques pour optimiser le stockage dans les charges de travail IA/ML sur Amazon EKS, notamment le déploiement de modèles à l’aide de pilotes CSI pour monter des services tels que S3, Amazon FSx pour Lustre ou EFS en tant que volumes persistants, la sélection du stockage en fonction des besoins de la charge de travail (par exemple, Amazon FSx pour Lustre pour la formation distribuée avec des options telles que Scratch-SSD ou Persistent-SSD) et l’activation de fonctionnalités telles que la compression et l’agrégation par bandes des données.
Observabilité IَََََA/ML
Cette section se concentre sur la surveillance et l’optimisation de l’utilisation des GPU pour les charges de travail IA/ML sur Amazon EKS afin d’améliorer l’efficacité et de réduire les coûts, notamment grâce à des stratégies telles que le ciblage d’une utilisation élevée des GPU à l’aide d’outils tels que CloudWatch Container Insights et DCGM-Exporter de NVIDIA intégré à Prometheus et Grafana, ainsi que les métriques que nous vous recommandons d’analyser pour vos charges de travail IA/ML.
Performances IَََََA/ML
Cette section se concentre sur l’amélioration de la mise à l’échelle et des performances des applications pour les charges de travail IA/ML sur Amazon EKS grâce à la gestion des images de conteneurs et à l’optimisation du démarrage, notamment des pratiques telles que l’utilisation de petites images de base légères ou de conteneurs AWS Deep Learning Containers avec des builds en plusieurs étapes, le préchargement d’images via des instantanés EBS ou le préchargement dans le cache d’exécution à l’aide de DaemonSets ou de Deployments.
Architectures de référence
Veuillez explorer ces référentiels GitHub pour obtenir des architectures de référence, des exemples de code et des utilitaires permettant de mettre en œuvre l’entraînement et l’inférence distribuées pour les charges de travail IA/ML sur Amazon EKS et d’autres services AWS.
Entraînement distribué AWSome
Ce référentiel propose une collection de bonnes pratiques, d’architectures de référence, d’exemples d’entraînement des modèles et d’utilitaires pour entraîner de grands modèles sur AWS. Il prend en charge l’entraînement distribué avec Amazon EKS, y compris les modèles CloudFormation pour les clusters EKS, les constructions AMI et de conteneurs personnalisées, les cas de test pour des cadres tels que PyTorch (DDP/FSDP, MegatronLM, NeMo) et JAX, ainsi que des outils de validation, d’observabilité et de surveillance des performances tels que EFA Prometheus exporter et Nvidia Nsight Systems.
Inférence AWSome
Ce référentiel fournit des architectures de référence et des cas de test pour optimiser les solutions d’inférence sur AWS, en mettant l’accent sur Amazon EKS et les instances EC2 accélérées. Il comprend des configurations d’infrastructure pour les clusters VPC et EKS, des projets pour des cadres tels que NVIDIA NIMs, TensorRT-LLM, Triton Inference Server et RayService, avec des exemples pour des modèles tels que Llama3-8B et Llama 3.1 405B. Il propose des déploiements multi-nœuds utilisant K8s LeaderWorkerSet, l’autoscaling EKS, les GPU multi-instances (MIG) et des cas d’utilisation réels tels qu’un bot audio pour l’ASR, l’inférence et le TTS.
Didacticiels
Si vous souhaitez configurer des plateformes et des cadres de machine learning dans Amazon EKS, consultez les tutoriels décrits dans cette section. Ces tutoriels couvrent tous les aspects, des modèles permettant d’optimiser l’utilisation des processeurs GPU au choix des outils de modélisation, en passant par créer des cadres pour des secteurs spécialisés.
Créer des plateformes d’IA générative sur Amazon EKS
Exécuter des cadres d’IA générative spécialisés sur Amazon EKS
Optimiser les performances des GPU NVIDIA pour le ML sur Amazon EKS
-
Mettez en œuvre le partage de GPU afin d’utiliser efficacement les GPU NVIDIA pour vos clusters Amazon EKS :
Partage de GPU sur Amazon EKS avec le time-slicing NVIDIA et les instances EC2 accélérées
-
Utilisez les GPU multi-instances (MIG) et les microservices NIM pour exécuter davantage de pods par GPU sur vos clusters EKS :
-
Créez et déployez un système machine learning évolutif sur Kubernetes avec Kubeflow on AWS