Étudiez les problèmes opérationnels dans votre environnement - Amazon CloudWatch

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Étudiez les problèmes opérationnels dans votre environnement

Création d'une enquête

Création d'une enquête à partir d'une page de AWS console

Vous pouvez démarrer une enquête à partir de plusieurs AWS consoles, notamment (mais sans s'y limiter) des pages CloudWatch d'alarme, des pages CloudWatch métriques et des pages de surveillance Lambda.

Pour démarrer une enquête à partir d'une page de AWS console
  1. Au niveau du compte, sélectionnez le graphique de la métrique ou de l'alarme que vous souhaitez examiner.

  2. Si le bouton Enquêter se trouve en haut de la page, choisissez-le, puis choisissez Commencer une nouvelle enquête.

    Sinon, choisissez l'icône du menu représentant des points de suspension verticaux Depicts the appearance of the vertical ellipsis icon on the console pour la métrique, puis choisissez Enquêter, Démarrer une nouvelle enquête.

  3. Dans le volet Investigation, entrez le nom de l'enquête dans Titre de la nouvelle enquête, et entrez éventuellement des notes concernant la métrique ou l'alarme sélectionnée.

  4. Choisissez ensuite Démarrer l'enquête.

    L'enquête commence. CloudWatch investigations analyse vos données de télémétrie pour trouver les données susceptibles d'être associées à cette situation.

  5. Pour déplacer les données d'enquête vers le volet le plus grand, choisissez Ouvrir en pleine page.

  6. Pour obtenir des instructions détaillées sur les mesures que vous pouvez prendre tout en poursuivant l'enquête, consultezAfficher et poursuivre une enquête en cours.

Créer une enquête à partir du chat Amazon Q

Vous pouvez poser des questions sur les problèmes liés à votre déploiement dans le chat CloudWatch dédié aux enquêtes. La question pourrait être quelque chose comme « Pourquoi ma fonction Lambda est-elle lente aujourd'hui ? »

Dans ce cas, CloudWatch les enquêteurs peuvent poser des questions complémentaires et effectuer un bilan de santé concernant le problème. Après le bilan de santé, le chat vous demandera si vous souhaitez lancer une enquête.

Pour plus d'informations et d'autres exemples de questions, consultez Chatting with Amazon Q about AWS. .

Pour obtenir des instructions détaillées sur les étapes que vous pouvez suivre tout en poursuivant l'enquête une fois celle-ci lancée, consultezAfficher et poursuivre une enquête en cours.

Création d'une enquête à partir d'une action CloudWatch d'alarme

Lorsque vous créez une CloudWatch alarme, vous pouvez spécifier qu'elle lance automatiquement une enquête lorsqu'elle passe à l'état ALARM. Vous pouvez le faire à la fois pour les alarmes métriques et les alarmes composites. Pour plus d'informations sur la création d'alarmes, reportez-vous Créer des alertes sur les métriques aux sections etCréer une alerte composite.

Afficher et poursuivre une enquête en cours

Suivez les étapes décrites dans cette section pour consulter et poursuivre une enquête en cours

Pour consulter et poursuivre une enquête
  1. Si vous n'êtes pas encore sur la page dédiée à l'enquête, procédez comme suit :

    1. Ouvrez la CloudWatch console à l'adresse https://console.aws.amazon.com/cloudwatch/.

    2. Dans le volet de navigation de gauche, choisissez AI Operations, Investigations.

    3. Choisissez le nom de l'enquête.

  2. La section Fil affiche les éléments qui ont été ajoutés aux résultats de l'enquête, y compris la métrique ou l'alarme initialement sélectionnée pour démarrer l'enquête.

    Le volet de droite comprend des onglets. Choisissez l'onglet Suggestions.

  3. L'onglet Suggestions affiche les observations d'autres données télémétriques détectées par CloudWatch les enquêtes et susceptibles d'être liées à l'enquête. Il peut également inclure des hypothèses, qui sont des raisons possibles ou des causes profondes découvertes par les CloudWatch enquêtes à l'origine de la situation.

    Les observations et les hypothèses sont rédigées en langage naturel par CloudWatch des enquêtes.

    Vous avez plusieurs options:

    • Pour chaque suggestion, vous pouvez choisir Accepter ou Rejeter.

      Lorsque vous choisissez Accepter, la suggestion est ajoutée à la section Fil, et CloudWatch investigations utilise ces informations pour orienter les analyses et les suggestions ultérieures.

      Si vous choisissez Supprimer, la suggestion est déplacée vers l'onglet Rejeté.

    • Pour chaque suggestion de type observation, vous pouvez choisir de développer le graphique dans l'onglet Suggestions ou de l'ouvrir dans la CloudWatch console pour en savoir plus.

    • Certaines des observations peuvent être le résultat de requêtes CloudWatch Logs Insights CloudWatch effectuées dans le cadre de l'enquête. Lorsqu'une observation est le résultat d'une requête CloudWatch Logs Insights, la requête elle-même est affichée dans le cadre de l'observation. Vous pouvez modifier la requête et la réexécuter. Pour ce faire, choisissez l'icône An example of a CloudWatch overview home page, showing alarms and their current state, and examples of other metrics graph widgets that might appear on the overview home page. du menu à points de suspension verticaux à côté des résultats, puis choisissez Ouvrir dans Logs Insights. Pour plus d'informations, consultez la section Analyse des données des CloudWatch journaux avec Logs Insights.

    • Si vous connaissez la télémétrie d'un AWS service susceptible de s'appliquer à cette enquête, vous pouvez accéder à la console de ce service et ajouter la télémétrie à l'enquête. Par exemple, pour ajouter une métrique Lambda à l'investigation, vous pouvez effectuer les opérations suivantes :

      1. Ouvrez la console Lambda.

      2. Dans la section Moniteur, recherchez la métrique.

      3. Ouvrez le menu contextuel à points de suspension verticaux An example of a CloudWatch overview home page, showing alarms and their current state, and examples of other metrics graph widgets that might appear on the overview home page. pour la métrique, choisissez Enquêter, Ajouter à l'investigation. Ensuite, dans le volet Investiguer, sélectionnez le nom de l'investigation.

    • Lorsque vous consultez une hypothèse dans l'onglet Suggestions, vous pouvez choisir Afficher le raisonnement pour afficher les données utilisées par CloudWatch les investigations pour générer l'hypothèse.

    • Vous pouvez choisir l'onglet Supprimé et afficher les suggestions précédemment rejetées. Pour ajouter l'un d'entre eux aux résultats, choisissez Restaurer aux résultats.

    • Pour ajouter des notes aux résultats, choisissez Nouvelle note dans le volet Fil d'actualité. Entrez ensuite vos notes et choisissez Ajouter.

  4. Lorsque vous ajoutez une hypothèse dans la zone Fil d'actualité, elle peut afficher Afficher les actions suggérées. Si tel est le cas, cette option affiche les actions possibles que vous pouvez entreprendre, en supposant que l'hypothèse concernant le problème est correcte. Les actions possibles sont les suivantes :

    • Les suggestions de AWS documentation sont des liens vers de la documentation qui peuvent vous aider à comprendre le problème sur lequel vous travaillez et comment le résoudre. Pour consulter la documentation suggérée, cliquez sur son lien Révision

    • Les suggestions de runbooks sont des suggestions qui exploitent les runbooks prédéfinis dans Systems Manager Automation. Chaque runbook définit un certain nombre d'étapes pour effectuer une tâche sur une AWS ressource.

      Important

      L'exécution d'un runbook d'automatisation est payante. Cependant, CloudWatch les investigations vous fournissent un aperçu des actions entreprises par un runbook suggéré, ce qui vous permet de mieux évaluer s'il convient d'exécuter le runbook. Pour plus d'informations sur la tarification de l'automatisation, consultez la section AWS Systems Manager sur la tarification de l'automatisation.

      Pour plus d'informations sur la poursuite d'une action d'exécution, voir Examen et exécution des corrections suggérées dans le manuel d'exécution pour les enquêtes CloudWatch avant de passer à l'étape suivante de cette procédure.

  5. Lorsque vous pensez avoir trouvé la cause première du problème, vous pouvez choisir l'onglet Vue d'ensemble, puis sélectionner Générer dans la section Résumé de l'enquête. CloudWatch investigations crée ensuite un résumé en langage naturel des conclusions et hypothèses importantes issues de l'enquête.

    Même après avoir généré un résumé, vous pouvez poursuivre l'enquête. Si vous le faites et que vous ajoutez ou supprimez des résultats de l'enquête, vous pouvez toujours revenir à l'onglet Vue d'ensemble et choisir à nouveau Générer pour obtenir un résumé actualisé.

  6. Pour terminer une enquête, choisissez Terminer l'enquête, puis ajoutez éventuellement des notes finales. Ensuite, choisissez Save (Enregistrer).

    Le statut de l'enquête passe à Archivé. Vous pouvez redémarrer les enquêtes archivées en ouvrant la page d'enquête et en choisissant Redémarrer l'enquête.

    Nous vous recommandons de ne pas laisser les enquêtes ouvertes indéfiniment, car les transitions d'état d'alarme liées à l'enquête continueront d'être ajoutées à l'enquête tant qu'elle sera ouverte.

Note

À certains moments, le message « Terminé l'analyse » peut s'afficher. J'ai terminé l'enquête. affiché au-dessus de la zone d'alimentation. Si vous ajoutez ensuite de la télémétrie aux résultats, ce message change et les CloudWatch investigations recommencent à analyser votre télémétrie, en fonction des nouvelles données que vous avez ajoutées aux résultats.

Examen et exécution des corrections suggérées dans le manuel d'exécution pour les enquêtes CloudWatch

Lorsque vous ajoutez une hypothèse dans la zone Fil d'une investigation active, les CloudWatch investigations peuvent afficher Afficher les actions suggérées. L'une des actions suggérées pourrait être de consulter la documentation contenant des informations pour vous aider à résoudre un problème manuellement.

Une autre suggestion pourrait être d'utiliser un runbook d'automatisation pour tenter de résoudre automatiquement le problème. L'automatisation est une fonctionnalité de Systems Manager, une autre fonctionnalité Service AWS. Les runbooks d'automatisation définissent une série d'étapes, ou d'actions, à exécuter sur les ressources que vous sélectionnez. Chaque runbook est conçu pour répondre à un problème spécifique. Les Runbooks peuvent répondre à de nombreux besoins opérationnels : création, réparation, reconfiguration, installation, dépannage, correction, duplication, etc. Pour plus d'informations sur l'automatisation, consultezIntégration à l' AWS Systems Manager automatisation.

Avant de commencer

Avant de travailler avec des runbooks d'automatisation dans le cadre d'une enquête, tenez compte des points importants suivants :

  • Choisir d'exécuter un runbook entraîne des frais. Pour obtenir des informations, veuillez consulter Tarification AWS Systems Manager.

  • Les causes profondes et les suggestions de runbook s'appuient sur un raisonnement automatisé et des services d'intelligence artificielle générative.

    Important

    Vous êtes responsable des actions résultant de l'exécution des étapes du runbook et du choix des valeurs de paramètres saisies lors de l'exécution du runbook. Vous devrez peut-être modifier le runbook suggéré pour vous assurer qu'il fonctionne comme prévu. Pour plus d'informations, consultez la politique en matière d'IA AWS responsable.

  • Selon le runbook, il se peut que vous deviez saisir des valeurs pour les paramètres d'entrée du runbook avant que l'exécution puisse s'exécuter.

  • Le runbook s'exécute en utilisant les autorisations IAM attribuées à l'opérateur. Si nécessaire, connectez-vous avec différentes autorisations IAM pour exécuter le runbook. Outre les autorisations relatives aux actions entreprises, vous aurez besoin d'autorisations supplémentaires de Systems Manager pour exécuter les étapes du runbook. Pour plus d'informations, consultez la section Configuration de l'automatisation dans le guide de AWS Systems Manager l'utilisateur.

Pour examiner et exécuter les actions suggérées dans le cadre des enquêtes CloudWatch
  1. Pour afficher les informations relatives à un runbook suggéré, choisissez Revoir pour savoir comment exécuter les étapes du runbook.

    Sur la page des détails de l'enquête, sélectionnez Suggestions.

  2. Dans le volet Suggestions, passez en revue la liste des hypothèses sur la base de l'analyse du problème étudié par le système.

    Pour chaque hypothèse, vous pouvez choisir l'une des options suivantes :

    • Afficher le raisonnement — Afficher plus d'informations sur les raisons pour lesquelles le système a généré l'hypothèse.

    • Afficher les actions : consultez les actions suggérées pour le problème. Les hypothèses n'incluront pas toutes des actions suggérées.

    • Accepter — Acceptez l'hypothèse et ajoutez-la à la section Fil de l'enquête.

      Note

      L'acceptation de l'hypothèse n'exécute pas automatiquement la solution Runbook associée. Vous pouvez consulter les runbooks suggérés avant d'accepter une hypothèse, mais vous devez accepter l'hypothèse pour exécuter un runbook.

    • Rejeter — Rejetez l'hypothèse et ne vous y attardez plus.

  3. Après avoir choisi Afficher l'action, dans le volet Actions suggérées, passez en revue la liste des actions suggérées que vous pouvez entreprendre pour résoudre le problème. Les actions suggérées peuvent inclure une ou plusieurs des actions suivantes :

    • AWS articles de connaissances : fournit des informations sur les mesures que vous pouvez prendre pour résoudre manuellement le problème, ainsi qu'un lien vers des informations supplémentaires.

    • AWS documentation — Fournit des liens vers des rubriques de documentation utilisateur liées au problème.

    • AWS-owned runbooks — Répertorie un ou plusieurs runbooks d'automatisation gérés par AWS lesquels vous pouvez exécuter pour tenter de résoudre un problème.

    • Runbooks dont vous êtes propriétaire : répertorie un ou plusieurs runbooks d'automatisation personnalisés créés par vous ou par un autre membre de votre compte ou de votre organisation, que vous pouvez exécuter pour tenter de résoudre un problème.

      Note

      Le système génère automatiquement cette liste de runbooks en évaluant les mots clés de vos runbooks personnalisés, puis en les comparant aux termes liés au problème étudié.

      Un nombre plus élevé de correspondances de mots clés signifie qu'un runbook personnalisé apparaît plus haut dans la liste des runbooks que vous possédez.

  4. Après avoir examiné l'hypothèse, vous pouvez examiner plus en détail une action suggérée spécifique et lire la documentation associée en choisissant En savoir plus. Vous pouvez également choisir Réviser les détails pour inspecter les runbooks suggérés qui vous appartiennent AWS ou qui vous appartiennent.

  5. Lorsque vous choisissez Vérifier les détails des runbooks, procédez comme suit :

    1. Pour la description du Runbook, consultez le contenu, qui fournit une vue d'ensemble des actions que le Runbook peut entreprendre pour résoudre le problème étudié. Choisissez Afficher les étapes pour visualiser le flux de travail du runbook et accéder au détail des différentes étapes.

    2. Pour les paramètres d'entrée, spécifiez les valeurs de tous les paramètres requis par le runbook. Ces paramètres varient d'un runbook à l'autre.

    3. Pour un aperçu de l'exécution, examinez attentivement les informations. Ces informations expliquent la portée et l’impact que vous pourriez avoir si vous choisissiez d’exécuter le dossier d’exploitation.

      Le contenu de l'aperçu de l'exécution fournit les informations suivantes :

      • Dans combien de comptes et de régions l'opération runbook aurait lieu.

      • Les types de mesures qui seraient prises et le nombre de mesures de chaque type.

        Les types d’actions sont les suivants :

        • Mutating: Une étape de dossier d’exploitation modifierait les cibles par le biais d’actions qui créent, modifient ou suppriment des ressources.

        • Non-Mutating: Une étape de dossier d’exploitation récupérerait des données sur les ressources mais ne les modifierait pas. Cette catégorie inclut généralement Describe, List, Get et les actions d’API similaires en lecture seule.

        • Undetermined: une étape indéterminée invoque des exécutions effectuées par un autre service d'orchestration AWS Lambda, comme, AWS Step Functions ou Run Command, une fonctionnalité de. AWS Systems Manager Une étape indéterminée peut également appeler une API tierce ou exécuter un Python ou un PowerShell script. Systems Manager Automation ne peut pas détecter le résultat des processus d’orchestration ou des exécutions d’API tierces, et ne peut donc pas les évaluer. Les résultats de ces étapes devraient être examinés manuellement pour en déterminer l’impact.

        Pour plus d'informations sur les actions prises en charge et leurs types d'impact, consultez la section Types d'impact des actions Runbook sur la correction dans le Guide de l'AWS Systems Manager utilisateur.

    4. Vérifiez attentivement les informations de l’aperçu avant de décider si vous souhaitez continuer.

      À ce stade, vous pouvez sélectionner l’une des actions suivantes :

      • Arrêter et ne pas exécuter le dossier d’exploitation.

      • Modifiez les paramètres d'entrée avant d'exécuter le runbook.

      • Exécutez le runbook avec les options que vous avez déjà sélectionnées.

    Important

    Choisir d'exécuter le runbook entraîne des frais. Pour obtenir des informations, veuillez consulter Tarification AWS Systems Manager.

  6. Si vous souhaitez exécuter le runbook, choisissez Execute.

    Si vous avez déjà accepté l'hypothèse, l'exécution est lancée.

    Si vous n'avez pas encore accepté l'hypothèse, une boîte de dialogue vous invite à l'accepter avant le lancement de l'exécution.

Une fois que vous avez sélectionné Execute pour un runbook, cette action est ajoutée au volet Fil de l'enquête. À partir de l'enquête, vous pouvez surveiller les nouvelles données contenues dans les indicateurs des résultats pour voir si les actions du runbook corrigent le problème.