

 **Aidez à améliorer cette page** 

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Pour contribuer à ce guide de l'utilisateur, cliquez sur le GitHub lien **Modifier cette page sur** qui se trouve dans le volet droit de chaque page.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Configuration du cluster Amazon EKS pour les charges AI/ML de travail
<a name="ml-cluster-setup"></a>

**Astuce**  
 [Inscrivez-vous](https://events.eksworkshop.com/workshops/genai/) aux prochains AI/ML ateliers Amazon EKS.

Cette section vous explique comment créer un cluster Amazon EKS prêt à exécuter des charges de travail d'inférence, notamment le calcul avec des GPU, la pile de surveillance et le stockage Amazon S3 pour les pondérations des modèles, ainsi que les autorisations IAM nécessaires AWS .

## Présentation de l’architecture
<a name="_architecture_overview"></a>

La configuration crée l'infrastructure suivante :
+  **Cluster EKS avec GPU-enabled nœuds : un cluster** Karpenter-managed NodePool qui approvisionne dynamiquement les instances de G-family GPU à l'aide de la capacité Spot avec On-Demand solution de secours.
+  **Stack de surveillance** : Prometheus extrait les métriques des clusters, des nœuds et du GPU et les écrit à distance dans Amazon Managed Service for Prometheus (AMP). Grafana fournit des tableaux de bord pour la visualisation. L'exportateur NVIDIA DCGM ajoute GPU-specific des indicateurs tels que l'utilisation, la mémoire, la température, la consommation électrique, la bande passante NVLink et l'activité des tenseurs.
+  **Compartiment S3 de pondération des modèles** : compartiment Amazon S3 pour stocker les poids des modèles, avec une association EKS Pod Identity qui autorise l' read/write accès aux pods de charge de travail.

## Options de calcul en cluster
<a name="_cluster_compute_options"></a>

Le guide propose deux méthodes pour configurer votre cluster. Choisissez-en un et suivez-le régulièrement à chaque étape.
+  **Mode automatique EKS** : une seule commande approvisionne un cluster EKS avec le mode automatique EKS activé. Tous les composants requis sont fournis prêts à l'emploi, notamment l' Karpenter-based auto-scaling, l'agent de surveillance des nœuds EKS, l'extraction rapide des conteneurs avec SOCI et le plug-in pour appareils NVIDIA.
+  **Self-managed Karpenter** — Vous installez et configurez chaque composant de manière explicite : Karpenter via `eksctl` la réparation automatique des nœuds via son portail de fonctionnalités, l'agent de surveillance des nœuds EKS en tant que module complémentaire EKS et le plug-in pour appareil NVIDIA via Helm. Vous créez également une personnalisation `EC2NodeClass` qui utilise les AMI EKS-optimized NVIDIA AL2023 et configure le SOCI.

## Ce que vous allez configurer
<a name="_what_youll_set_up"></a>


| Step (Étape) | Description | 
| --- | --- | 
|  **Créer un cluster**  | Fournissez le plan de contrôle EKS et les composants au niveau du cluster nécessaires aux charges de travail du GPU. | 
|  **Créez des nœuds GPU provisionnés dynamiquement**  | Définissez un GPU dynamique NodePool qui provisionne les instances de G-family GPU au fur et à mesure que les charges de travail sont planifiées. | 
|  **Testez avec une capsule d'échantillonnage**  | Validez la configuration de bout en bout en exécutant un `nvidia-smi` module qui incite Karpenter à approvisionner un nœud. GPU-enabled  | 
|  **Ajouter une capacité réservée (facultatif)**  | Joignez une réservation On-Demand de capacité (ODCR) à votre formulaire NodeClass réservé en premier avec solution de secours. Spot/On-Demand  | 
|  **Surveillance des installations**  | Déployez kube-prometheus-stack (Prometheus \+ Grafana) avec écriture à distance sur AMP, ainsi que l'exportateur NVIDIA DCGM pour les métriques du GPU. | 
|  **Créer un panier de poids pour modèles**  | Créez un compartiment S3 et configurez EKS Pod Identity afin que les pods de charge de travail puissent lire et écrire les pondérations des modèles. | 

## Mise en route
<a name="_get_started"></a>

Pour obtenir des instructions détaillées sur l'utilisation de la AWS CLI, consultez[Configuration du cluster Amazon EKS pour les AI/ML charges de travail à l'aide de CLI](ml-cluster-setup-cli.md).