CloudWatch solution : charge de travail du GPU NVIDIA sur Amazon EC2 - Amazon CloudWatch

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

CloudWatch solution : charge de travail du GPU NVIDIA sur Amazon EC2

Cette solution vous permet de configurer la collecte de out-of-the-box métriques à l'aide d' CloudWatch agents pour les charges de travail GPU NVIDIA exécutées sur des EC2 instances. En outre, il vous aide à configurer un tableau de CloudWatch bord préconfiguré. Pour des informations générales sur toutes les solutions CloudWatch d'observabilité, consultezCloudWatch solutions d'observabilité.

Prérequis

Cette solution est pertinente pour les conditions suivantes :

  • Calcul : Amazon EC2

  • Supporte jusqu'à 500 GPUs dans toutes les EC2 instances d'une même instance Région AWS

  • Dernière version de l' CloudWatch agent

  • Agent SSM installé sur l'instance EC2

  • Un pilote NVIDIA doit être installé sur l' EC2 instance. Les pilotes NVIDIA sont préinstallés sur certaines Amazon Machine Images (AMIs). Sinon, vous pouvez installer le pilote manuellement. Pour plus d'informations, consultez Installer les pilotes NVIDIA sur des instances Linux.

Note

AWS Systems Manager (agent SSM) est préinstallé sur certaines Amazon Machine Images (AMIs) fournies par des tiers AWS de confiance. Si l'agent n'est pas installé, vous pouvez l'installer manuellement en suivant la procédure correspondant à votre type de système d'exploitation.

Avantages

La solution assure la surveillance NVIDIA, fournissant des informations précieuses pour les cas d'utilisation suivants :

  • Analysez l'utilisation du processeur graphique et de la mémoire pour détecter les problèmes de performance ou le besoin de ressources supplémentaires.

  • Surveillez la température et la consommation électrique pour garantir un GPUs fonctionnement dans les limites de sécurité.

  • Évaluez les performances de l'encodeur pour les charges de travail vidéo du GPU.

  • Vérifiez PCIe la connectivité pour la génération et la largeur attendues.

  • Surveillez les vitesses d'horloge du GPU pour détecter les problèmes de dimensionnement et de régulation.

Voici les principaux avantages de cette solution :

  • Automatise la collecte des métriques pour NVIDIA à l'aide de la configuration de l' CloudWatch agent, éliminant ainsi l'instrumentation manuelle.

  • Fournit un tableau de CloudWatch bord consolidé préconfiguré pour les métriques NVIDIA. Le tableau de bord gérera automatiquement les métriques des nouvelles EC2 instances NVIDIA configurées à l'aide de la solution, même si ces métriques n'existent pas lorsque vous créez le tableau de bord pour la première fois.

L'image suivante est un exemple du tableau de bord de cette solution.

Exemple de tableau de bord pour la solution GPU NVIDIA.

Coûts

Cette solution crée et utilise les ressources de votre compte. L'utilisation standard vous est facturée, y compris les frais suivants :

  • Toutes les mesures collectées par l' CloudWatch agent sont facturées en tant que mesures personnalisées. Le nombre de métriques utilisées par cette solution dépend du nombre d' EC2 hôtes.

    • Chaque EC2 hôte configuré pour la solution publie un total de 17 métriques par GPU.

  • Un tableau de bord personnalisé.

  • Opérations d'API demandées par l' CloudWatch agent pour publier les métriques. Avec la configuration par défaut de cette solution, l' CloudWatch agent appelle PutMetricDataune fois par minute pour chaque EC2 hôte. Cela signifie que l'PutMetricDataAPI sera appelée 30*24*60=43,200 dans un délai de 30 jours par mois pour chaque EC2 hôte.

Pour plus d'informations sur CloudWatch les tarifs, consultez Amazon CloudWatch Pricing.

Le calculateur de prix peut vous aider à estimer les coûts mensuels approximatifs liés à l'utilisation de cette solution.

Pour utiliser le calculateur de prix pour estimer les coûts mensuels de votre solution
  1. Ouvrez le calculateur CloudWatch de prix Amazon.

  2. Pour Choisir une région, sélectionnez la région dans laquelle vous souhaitez déployer la solution.

  3. Dans la section Mesures, pour Nombre de mesures, entrez17 * average number of GPUs per EC2 host * number of EC2 instances configured for this solution.

  4. Dans la APIssection, pour Nombre de demandes d'API, entrez43200 * number of EC2 instances configured for this solution.

  5. Par défaut, l' CloudWatch agent effectue une PutMetricDataopération par minute pour chaque EC2 hôte.

  6. Dans la section Tableaux de bord et alarmes, pour Nombre de tableaux de bord, entrez. 1

  7. Vous pouvez consulter vos coûts estimés mensuels au bas du calculateur de prix.

CloudWatch configuration de l'agent pour cette solution

L' CloudWatch agent est un logiciel qui s'exécute de manière continue et autonome sur vos serveurs et dans des environnements conteneurisés. Il collecte les métriques, les journaux et les traces de votre infrastructure et de vos applications et les envoie à CloudWatch X-Ray.

Pour plus d'informations sur l' CloudWatch agent, consultezCollectez des métriques, des journaux et des traces avec l' CloudWatch agent.

La configuration de l'agent de cette solution collecte un ensemble de métriques pour vous aider à commencer à surveiller et à observer votre GPU NVIDIA. L' CloudWatch agent peut être configuré pour collecter plus de métriques du GPU NVIDIA que ce que le tableau de bord affiche par défaut. Pour obtenir la liste de toutes les métriques du GPU NVIDIA que vous pouvez collecter, consultezCollecter des métriques GPU NVIDIA .

Configuration de l'agent pour cette solution

Les métriques collectées par l'agent sont définies dans la configuration de l'agent. La solution fournit des configurations d'agents permettant de collecter les métriques recommandées avec des dimensions adaptées au tableau de bord de la solution.

Utilisez la configuration d' CloudWatch agent suivante sur EC2 les instances avec NVIDIA GPUs. La configuration sera stockée en tant que paramètre dans le magasin de paramètres de SSM, comme détaillé plus loin dansÉtape 2 : enregistrer le fichier de configuration d' CloudWatch agent recommandé dans le magasin de paramètres de Systems Manager.

{ "metrics": { "namespace": "CWAgent", "append_dimensions": { "InstanceId": "${aws:InstanceId}" }, "metrics_collected": { "nvidia_gpu": { "measurement": [ "utilization_gpu", "temperature_gpu", "power_draw", "utilization_memory", "fan_speed", "memory_total", "memory_used", "memory_free", "pcie_link_gen_current", "pcie_link_width_current", "encoder_stats_session_count", "encoder_stats_average_fps", "encoder_stats_average_latency", "clocks_current_graphics", "clocks_current_sm", "clocks_current_memory", "clocks_current_video" ], "metrics_collection_interval": 60 } } }, "force_flush_interval": 60 }

Déployez l'agent correspondant à votre solution

Il existe plusieurs approches pour installer l' CloudWatch agent, selon le cas d'utilisation. Nous vous recommandons d'utiliser Systems Manager pour cette solution. Il fournit une expérience de console et simplifie la gestion d'un parc de serveurs gérés au sein d'un seul AWS compte. Les instructions de cette section utilisent Systems Manager et sont destinées aux situations où l' CloudWatch agent n'est pas exécuté avec des configurations existantes. Vous pouvez vérifier si l' CloudWatch agent est en cours d'exécution en suivant les étapes décrites dansVérifiez que l' CloudWatch agent est en cours d'exécution.

Si vous exécutez déjà l' CloudWatch agent sur les EC2 hôtes sur lesquels la charge de travail est déployée et que vous gérez les configurations de l'agent, vous pouvez ignorer les instructions de cette section et suivre votre mécanisme de déploiement existant pour mettre à jour la configuration. Assurez-vous de fusionner la configuration d'agent du GPU NVIDIA avec votre configuration d'agent existante, puis de déployer la configuration fusionnée. Si vous utilisez Systems Manager pour stocker et gérer la configuration de l' CloudWatch agent, vous pouvez fusionner la configuration avec la valeur de paramètre existante. Pour plus d'informations, consultez la section Gestion des fichiers de configuration des CloudWatch agents.

Note

L'utilisation de Systems Manager pour déployer les configurations d' CloudWatch agent suivantes remplacera ou remplacera toute configuration d' CloudWatch agent existante sur vos EC2 instances. Vous pouvez modifier cette configuration en fonction de votre environnement ou de votre cas d'utilisation unique. Les métriques définies dans la configuration sont le minimum requis pour le tableau de bord fourni avec la solution.

Le processus de déploiement comprend les étapes suivantes :

  • Étape 1 : Assurez-vous que les EC2 instances cibles disposent des autorisations IAM requises.

  • Étape 2 : Stockez le fichier de configuration d'agent recommandé dans le magasin de paramètres de Systems Manager.

  • Étape 3 : installez l' CloudWatch agent sur une ou plusieurs EC2 instances à l'aide d'une AWS CloudFormation pile.

  • Étape 4 : Vérifiez que la configuration de l'agent est correctement configurée.

Étape 1 : Assurez-vous que les EC2 instances cibles disposent des autorisations IAM requises

Vous devez autoriser Systems Manager à installer et configurer l' CloudWatch agent. Vous devez également autoriser l' CloudWatch agent à publier des données télémétriques depuis votre EC2 instance vers. CloudWatch Assurez-vous que le rôle IAM attaché à l'instance est associé aux politiques Amazon SSMManaged InstanceCore IAM CloudWatchAgentServerPolicyet Amazon.

Étape 2 : enregistrer le fichier de configuration d' CloudWatch agent recommandé dans le magasin de paramètres de Systems Manager

Parameter Store simplifie l'installation de l' CloudWatch agent sur une EC2 instance en stockant et en gérant de manière sécurisée les paramètres de configuration, éliminant ainsi le besoin de valeurs codées en dur. Cela garantit un processus de déploiement plus sûr et plus flexible, permettant une gestion centralisée et des mises à jour simplifiées des configurations sur plusieurs instances.

Procédez comme suit pour enregistrer le fichier de configuration d' CloudWatch agent recommandé en tant que paramètre dans Parameter Store.

Pour créer le fichier de configuration de CloudWatch l'agent en tant que paramètre
  1. Ouvrez la AWS Systems Manager console à l'adresse https://console.aws.amazon.com/systems-manager/.

  2. Vérifiez que la région sélectionnée sur la console est celle où s'exécute la charge de travail du GPU NVIDIA.

  3. Dans le volet de navigation, choisissez Application Management, Parameter Store.

  4. Procédez comme suit pour créer un nouveau paramètre pour la configuration.

    1. Sélectionnez Create parameter (Créer un paramètre).

    2. Dans le champ Nom, entrez un nom que vous utiliserez pour référencer le fichier de configuration de l' CloudWatch agent lors des étapes ultérieures. Par exemple, AmazonCloudWatch-NVIDIA-GPU-Configuration.

    3. (Facultatif) Dans la zone Description, tapez une description pour le paramètre.

    4. Pour le niveau des paramètres, choisissez Standard.

    5. Pour Type, choisissez String (Chaîne).

    6. Pour Type de données, sélectionnez le texte.

    7. Dans le champ Valeur, collez le bloc JSON correspondant répertorié dansConfiguration de l'agent pour cette solution.

    8. Sélectionnez Create parameter (Créer un paramètre).

Étape 3 : Installation de l' CloudWatch agent et application de la configuration à l'aide d'un AWS CloudFormation modèle

Vous pouvez l'utiliser AWS CloudFormation pour installer l'agent et le configurer de manière à utiliser la configuration d' CloudWatch agent que vous avez créée lors des étapes précédentes.

Pour installer et configurer l' CloudWatch agent pour cette solution
  1. Ouvrez l'assistant de création AWS CloudFormation rapide d'une pile à l'aide de ce lien : https://console.aws.amazon.com/cloudformation/accueil ? #/ stacks/quickcreate?templateURL=https://aws-observability-solutions-prod-us-east-1.s3.us-east-1.amazonaws.com/CloudWatchAgent/CFN/v1.0.0/cw - agent-installation-template -1.0.0.json.

  2. Vérifiez que la région sélectionnée sur la console est celle où s'exécute la charge de travail du GPU NVIDIA.

  3. Pour Nom de la pile, entrez un nom pour identifier cette pile, tel queCWAgentInstallationStack.

  4. Dans la section Paramètres, spécifiez les éléments suivants :

    1. Pour CloudWatchAgentConfigSSM, entrez le nom du paramètre Systems Manager pour la configuration de l'agent que vous avez créée précédemment, par exempleAmazonCloudWatch-NVIDIA-GPU-Configuration.

    2. Pour sélectionner les instances cibles, deux options s'offrent à vous.

      1. Pour InstanceIds, spécifiez une liste séparée par IDs des virgules d'instances IDs où vous souhaitez installer l' CloudWatch agent avec cette configuration. Vous pouvez répertorier une ou plusieurs instances.

      2. Si vous déployez à grande échelle, vous pouvez spécifier le TagKeyet le correspondant TagValuepour cibler toutes les EC2 instances avec cette balise et cette valeur. Si vous spécifiez un TagKey, vous devez spécifier un correspondant TagValue. (Pour un groupe Auto Scaling, spécifiez aws:autoscaling:groupName le TagKeyet spécifiez le nom du groupe Auto Scaling TagValueà déployer sur toutes les instances du groupe Auto Scaling.)

  5. Vérifiez les paramètres, puis choisissez Create stack.

Si vous souhaitez d'abord modifier le fichier modèle pour le personnaliser, choisissez l'option Télécharger un fichier modèle sous Create Stack Wizard pour télécharger le modèle modifié. Pour plus d'informations, consultez la section Création d'une pile sur AWS CloudFormation console.

Note

Une fois cette étape terminée, ce paramètre Systems Manager sera associé aux CloudWatch agents exécutés dans les instances ciblées. Cela signifie que :

  1. Si le paramètre Systems Manager est supprimé, l'agent s'arrête.

  2. Si le paramètre Systems Manager est modifié, les modifications de configuration s'appliqueront automatiquement à l'agent à la fréquence planifiée, qui est de 30 jours par défaut.

  3. Si vous souhaitez appliquer immédiatement les modifications à ce paramètre de Systems Manager, vous devez exécuter cette étape à nouveau. Pour plus d'informations sur les associations, consultez la section Utilisation des associations dans Systems Manager.

Étape 4 : vérifier que la configuration de l'agent est correctement configurée

Vous pouvez vérifier si l' CloudWatch agent est installé en suivant les étapes décrites dansVérifiez que l' CloudWatch agent est en cours d'exécution. Si l' CloudWatch agent n'est pas installé et n'est pas en cours d'exécution, assurez-vous que tout est correctement configuré.

Si tout est correctement configuré, vous devriez voir les métriques du GPU NVIDIA publiées sur CloudWatch. Vous pouvez consulter la CloudWatch console pour vérifier qu'ils sont publiés.

Pour vérifier que les métriques du GPU NVIDIA sont publiées sur CloudWatch
  1. Ouvrez la CloudWatch console à l'adresse https://console.aws.amazon.com/cloudwatch/.

  2. Choisissez Métriques, Toutes les métriques.

  3. Assurez-vous d'avoir sélectionné la région dans laquelle vous avez déployé la solution, puis choisissez Espaces de noms personnalisés. CWAgent

  4. Recherchez les métriques mentionnées dansConfiguration de l'agent pour cette solution, telles quenvidia_smi_utilization_gpu. Si vous obtenez des résultats pour ces mesures, celles-ci sont publiées sur CloudWatch.

Création du tableau de bord de la solution GPU NVIDIA

Le tableau de bord fourni par cette solution présente les GPUs métriques NVIDIA en les agrégeant et en les présentant pour toutes les instances. Le tableau de bord présente une répartition des principaux contributeurs (les 10 meilleurs widgets par métrique) pour chaque métrique. Cela vous permet d'identifier rapidement les valeurs aberrantes ou les instances qui contribuent de manière significative aux indicateurs observés.

Pour créer le tableau de bord, vous pouvez utiliser les options suivantes :

  • Utilisez CloudWatch la console pour créer le tableau de bord.

  • Utilisez AWS CloudFormation la console pour déployer le tableau de bord.

  • Téléchargez l' AWS CloudFormation infrastructure sous forme de code et intégrez-la dans le cadre de votre automatisation d'intégration continue (CI).

En utilisant la CloudWatch console pour créer un tableau de bord, vous pouvez prévisualiser le tableau de bord avant de le créer et de le débiter.

Note

Le tableau de bord créé avec AWS CloudFormation cette solution affiche les statistiques de la région dans laquelle la solution est déployée. Assurez-vous de créer la AWS CloudFormation pile dans la région où les métriques de votre GPU NVIDIA sont publiées.

Si vous avez spécifié un espace de noms personnalisé autre que CWAgent dans la configuration de l' CloudWatch agent, vous devrez modifier le AWS CloudFormation modèle du tableau de bord pour le CWAgent remplacer par l'espace de noms personnalisé que vous utilisez.

Pour créer le tableau de bord via CloudWatch la console
  1. Ouvrez la CloudWatch console Create Dashboard en utilisant ce lien : https://console.aws.amazon.com/cloudwatch/home ? #dashboards ? Modèle de tableau de bord = 2&referrer=os-catalog. NvidiaGpuOnEc

  2. Vérifiez que la région sélectionnée sur la console est celle où s'exécute la charge de travail du GPU NVIDIA.

  3. Entrez le nom du tableau de bord, puis choisissez Créer un tableau de bord.

    Pour différencier facilement ce tableau de bord des tableaux de bord similaires dans d'autres régions, nous vous recommandons d'inclure le nom de la région dans le nom du tableau de bord, par exempleNVIDIA-GPU-Dashboard-us-east-1.

  4. Prévisualisez le tableau de bord et choisissez Enregistrer pour créer le tableau de bord.

Pour créer le tableau de bord via AWS CloudFormation
  1. Ouvrez l'assistant de création AWS CloudFormation rapide d'une pile à l'aide de ce lien : https://console.aws.amazon.com/cloudformation/accueil ? #/ stacks/quickcreate?templateURL=https://aws-observability-solutions-prod-us-east-1.s3.us-east-1.amazonaws.com/NVIDIA_GPU_EC2/CloudWatch/CFN/v1.0.0/dashboard -template-1.0.0.json.

  2. Vérifiez que la région sélectionnée sur la console est celle où s'exécute la charge de travail du GPU NVIDIA.

  3. Pour Nom de la pile, entrez un nom pour identifier cette pile, tel queNVIDIA-GPU-DashboardStack.

  4. Dans la section Paramètres, spécifiez le nom du tableau de bord sous le DashboardNameparamètre.

  5. Pour différencier facilement ce tableau de bord des tableaux de bord similaires dans d'autres régions, nous vous recommandons d'inclure le nom de la région dans le nom du tableau de bord, par exempleNVIDIA-GPU-Dashboard-us-east-1.

  6. Reconnaissez les capacités d'accès pour les transformations sous Capacités et transformations. Notez que AWS CloudFormation cela n'ajoute aucune ressource IAM.

  7. Vérifiez les paramètres, puis choisissez Create stack.

  8. Une fois que le statut de la pile est CREATE_COMPLETE, choisissez l'onglet Ressources sous la pile créée, puis cliquez sur le lien sous Identifiant physique pour accéder au tableau de bord. Vous pouvez également accéder au tableau de bord dans la CloudWatch console en choisissant Tableaux de bord dans le volet de navigation gauche de la console et en recherchant le nom du tableau de bord sous Tableaux de bord personnalisés.

Si vous souhaitez modifier le fichier modèle pour le personnaliser à quelque fin que ce soit, vous pouvez utiliser l'option Télécharger un fichier modèle sous Create Stack Wizard pour télécharger le modèle modifié. Pour plus d'informations, consultez la section Création d'une pile sur AWS CloudFormation console. Vous pouvez utiliser ce lien pour télécharger le modèle : https://aws-observability-solutions-prod-us-east-1.s3.us-east-1.amazonaws.com/NVIDIA_GPU_EC2/CloudWatch/CFN/v1.0.0/dashboard-template-1.0.0.json.

Commencez avec le tableau de bord du GPU NVIDIA

Voici quelques tâches que vous pouvez essayer avec le nouveau tableau de bord des GPU NVIDIA. Ces tâches vous permettent de vérifier que le tableau de bord fonctionne correctement et de vous fournir une expérience pratique de son utilisation pour surveiller votre NVIDIA GPUs. En les essayant, vous vous familiariserez avec la navigation dans le tableau de bord et l'interprétation des indicateurs visualisés.

Passez en revue l'utilisation du GPU

Dans la section Utilisation, recherchez les widgets Utilisation du GPU et Utilisation de la mémoire. Ils indiquent le pourcentage de temps pendant lequel le GPU est activement utilisé pour les calculs et le pourcentage de mémoire globale lue ou écrite, respectivement. Un taux d'utilisation élevé peut indiquer des problèmes de performances potentiels ou le besoin de ressources GPU supplémentaires.

Analyser l'utilisation de la mémoire du GPU

Dans la section Mémoire, recherchez les widgets Mémoire totale, Mémoire utilisée et Mémoire libre. Ils fournissent des informations sur la capacité de mémoire globale de la GPUs et sur la quantité de mémoire actuellement consommée ou disponible. La pression de la mémoire peut entraîner des problèmes de performances ou out-of-memory des erreurs. Il est donc important de surveiller ces indicateurs et de s'assurer que suffisamment de mémoire est disponible pour vos charges de travail.

Surveillez la température et la consommation d'énergie

Dans la section Température/Puissance, recherchez les widgets Température du GPU et Consommation d'énergie. Ces paramètres sont essentiels pour garantir que vous fonctionnez GPUs dans des limites thermiques et de puissance sûres.

Identifier les performances de l'encodeur

Dans la section Encodeur, recherchez les widgets Nombre de sessions d'encodeur, FPS moyen et Latence moyenne. Ces statistiques sont pertinentes si vous exécutez des charges de travail d'encodage vidéo sur votre GPUs. Surveillez ces indicateurs pour vous assurer que vos encodeurs fonctionnent de manière optimale et identifiez les éventuels goulots d'étranglement ou problèmes de performances.

Vérifier l'état du PCIe lien

Dans la PCIesection, trouvez les widgets de génération de PCIe liens et de largeur de PCIe lien. Ces métriques fournissent des informations sur le PCIe lien reliant le GPU au système hôte. Assurez-vous que le lien fonctionne à la génération et à la largeur prévues afin d'éviter d'éventuelles limitations de performances dues à des PCIe goulots d'étranglement.

Donnez votre avis sur les horloges GPU

Dans la section Horloge, recherchez les widgets Horloge graphique, Horloge SM, Horloge mémoire et horloge vidéo. Ces mesures indiquent les fréquences de fonctionnement actuelles des différents composants du GPU. La surveillance de ces horloges peut aider à identifier les problèmes potentiels liés à la mise à l'échelle de l'horloge du GPU ou à la limitation de fréquence, susceptibles d'avoir un impact sur les performances.