Investigar problemas operacionais no ambiente - Amazon CloudWatch

Investigar problemas operacionais no ambiente

Criar uma investigação

Criar uma investigação em uma página do Console da AWS

Você pode iniciar uma investigação em vários consoles da AWS, incluindo (entre outros) páginas de alarmes do CloudWatch, páginas de métricas do CloudWatch e páginas de monitoramento do Lambda.

Para criar uma investigação em uma página do Console da AWS
  1. Em Nível da conta, selecione o gráfico da métrica ou do alarme que deseja investigar.

  2. Se a parte superior da página tiver um botão Investigar, escolha-o e depois escolha Iniciar nova investigação.

    Do contrário, escolha o ícone do menu de elipse vertical Depicts the appearance of the vertical ellipsis icon on the console da métrica e depois Investigar, Iniciar uma nova investigação.

  3. No painel Investigação, insira um nome para a investigação em Novo título de investigação e, opcionalmente, insira observações sobre a métrica ou o alarme selecionado.

  4. Em seguida, escolha Iniciar investigação.

    A investigação começa. As investigações do CloudWatch examinam os dados de telemetria para encontrar dados que possam estar associados a essa situação.

  5. Para mover os dados da investigação para o painel maior, escolha Abrir em página inteira.

  6. Para obter instruções detalhadas sobre as etapas que você pode realizar ao continuar a investigação, consulte Visualizar e continuar uma investigação aberta.

Criar uma investigação no chat do Amazon Q

Você pode fazer perguntas sobre problemas na sua implantação no chat das investigações do CloudWatch. A pergunta pode ser algo como: “Por que minha função do Lambda está lenta hoje?”

Feita a pergunta, as investigações do CloudWatch podem fazer perguntas complementares e executar uma verificação de integridade em relação ao problema. Após a verificação de integridade, o chat perguntará se você deseja iniciar uma investigação.

Para obter mais informações e mais exemplos de perguntas, consulte Chat com o Amazon Q sobre AWS.

Para obter instruções detalhadas sobre as etapas que você pode realizar ao continuar a investigação após iniciada, consulte Visualizar e continuar uma investigação aberta.

Criar uma investigação de uma ação de alarme do CloudWatch

Ao criar um alarme do CloudWatch, é possível especificar que ele inicie automaticamente uma investigação ao entrar no estado ALARM. Você pode fazer isso tanto para alarmes de métricas como para alarmes compostos. Para obter mais informações sobre como criar alarmes, consulte Geração de alarmes para métricas e Criar um alarme composto.

Visualizar e continuar uma investigação aberta

Use as etapas nesta seção para visualizar e continuar uma investigação existente.

Para visualizar e continuar uma investigação
  1. Caso já não esteja na página da investigação, faça o seguinte:

    1. Abra o console do CloudWatch, em https://console.aws.amazon.com/cloudwatch/.

    2. No painel de navegação esquerdo, escolha Operações de IA, Investigações.

    3. Escolha o nome da investigação.

  2. A seção Feed exibe os itens que foram adicionados às descobertas da investigação, incluindo a métrica ou o alarme que foi originalmente selecionado para iniciar a investigação.

    O painel à direita inclui guias. Escolha a guia Sugestões.

  3. A guia Sugestões exibe as observações de outras telemetrias que as investigações do CloudWatch descobriram que podem estar relacionadas à investigação. Isso também pode incluir hipóteses, que são possíveis motivos ou causas raiz que as investigações do CloudWatch encontraram para a situação.

    Tanto as observações quanto as hipóteses são escritas em linguagem natural pelas investigações do CloudWatch.

    Você tem várias opções:

    • Para cada sugestão, você pode escolher Aceitar ou Descartar.

      Quando você escolhe Aceitar, a sugestão é adicionada à seção Feed, e as investigações do CloudWatch usam essas informações para conduzir análises e sugestões adicionais.

      Caso escolha Descartar, a sugestão será movida para a guia Descartadas.

    • Para cada sugestão de tipo de observação, você pode optar por expandir o gráfico na guia Sugestões ou abri-lo no console do CloudWatch para ver mais detalhes sobre ele.

    • Algumas das observações podem ser resultados de consultas do CloudWatch Logs Insights que as investigações do CloudWatch executaram como parte da investigação. Quando uma observação é o resultado de uma consulta do CloudWatch Logs Insights, a consulta em si é exibida como parte da observação. Você pode editar a consulta e executá-la novamente. Para fazer isso, escolha o ícone do menu de elipse vertical An example of a CloudWatch overview home page, showing alarms and their current state, and examples of other metrics graph widgets that might appear on the overview home page. ao lado dos resultados e depois Abrir no Logs Insights. Para obter mais informações, consulte Analisar logs de dados com o CloudWatch Logs Insights.

    • Caso saiba de uma telemetria em um serviço da AWS que possa se aplicar a essa investigação, acesse o console desse serviço e adicione a telemetria à investigação. Por exemplo, para adicionar uma métrica do Lambda à investigação, você pode fazer o seguinte:

      1. Abra o console do lambda.

      2. Na seção Monitorar, encontre a métrica.

      3. Abra o menu de elipse vertical de contexto An example of a CloudWatch overview home page, showing alarms and their current state, and examples of other metrics graph widgets that might appear on the overview home page. da métrica, escolha Investigar, Adicionar à investigação. Em seguida, no painel Investigar, selecione o nome da investigação.

    • Ao visualizar uma hipótese na guia Sugestões, você pode escolher Mostrar raciocínio para exibir os dados que as investigações do CloudWatch usaram para gerar a hipótese.

    • Você pode escolher a guia Descartadas e visualizar as sugestões que foram descartadas anteriormente. Para adicionar uma delas às descobertas, escolha Restaurar para descobertas.

    • Para adicionar observações às descobertas, escolha Nova observação no painel Feed. Em seguida, insira as observações e escolha Adicionar.

  4. Quando você adiciona uma hipótese à área Feed, ela poderá exibir Mostrar ações sugeridas. Nesse caso, escolher essa opção exibirá as possíveis ações que você pode realizar, supondo que a hipótese esteja correta sobre o problema. As ações possíveis incluem o seguinte:

    • Sugestões de documentação são links para a documentação da AWS que podem ajudar a entender o problema no qual você está trabalhando e como resolvê-lo. Para conferir a documentação sugerida, escolha o link Analisar.

    • Sugestões de runbooks são sugestões que aproveitam os runbooks predefinidos no Systems Manager Automation. Cada runbook define várias etapas para realizar uma tarefa em um recurso da AWS.

      Importante

      Há uma cobrança pela execução de um runbook do Automation. No entanto, as investigações do CloudWatch fornecem uma pré-visualização das ações executadas por um runbook sugerido, oferecendo a você a oportunidade de avaliar melhor se o runbook deve ser executado. Para obter informações sobre preços do Automation, consulte os Preços do recurso Automation do AWS Systems Manager.

      Para obter informações sobre como continuar com uma ação de runbook, consulte Analisar e executar correções do runbook sugeridas para investigações do CloudWatch antes de continuar com a etapa a seguir neste procedimento.

  5. Quando achar que concluiu a investigação e encontrou a causa raiz do problema, você poderá escolher a guia Visão geral e, em seguida, escolher Gerar na seção Resumo da investigação. As investigações do CloudWatch então criam um resumo em linguagem natural das descobertas e hipóteses importantes da investigação.

    Mesmo depois de gerar um resumo, você poderá continuar a investigação. Se você fizer isso e adicionar ou remover descobertas da investigação, sempre poderá retornar à guia Visão geral e escolher Gerar novamente para obter um resumo atualizado.

  6. Para encerrar uma investigação, escolha Encerrar investigação e, opcionalmente, adicione observações finais. Em seguida, escolha Salvar.

    O status da investigação altera para Arquivada. Você pode reiniciar investigações arquivadas abrindo a página da investigação e escolhendo Reiniciar investigação.

    Recomendamos que você não deixe as investigações abertas indefinidamente, pois as transições de estado de alarme relacionadas à investigação continuarão sendo adicionadas a ela enquanto estiver aberta.

nota

Em alguns pontos, você poderá ver Concluiu a análise. Encerrou a investigação. exibido acima da área Feed. Se você adicionar mais telemetria às descobertas, essa mensagem mudará e as investigações do Amazon CloudWatch começarão a examinar a telemetria novamente com base nos novos dados que você adicionou às descobertas.

Analisar e executar correções do runbook sugeridas para investigações do CloudWatch

Quando você adiciona uma hipótese à área Feed de uma investigação ativa, as investigações do CloudWatch podem exibir Mostrar ações sugeridas. Uma ação sugerida pode ser visualizar a documentação com informações para ajudar a corrigir um problema manualmente.

Outra sugestão pode ser usar um runbook do Automation para tentar resolver automaticamente o problema. O Automation é um recurso do Systems Manager, outro AWS service (Serviço da AWS). Os runbooks do Automation definem uma série de etapas, ou ações, a serem executadas nos recursos que você seleciona. Cada runbook é projetado para resolver um problema específico. Os runbooks podem atender a uma variedade de necessidades operacionais: criação, reparo, reconfiguração, instalação, solução de problemas, correção, duplicação e muito mais. Para obter informações sobre o Automation, consulte Integração com o Automation do AWS Systems Manager.

Antes de começar

Antes de trabalhar com runbooks do Automation em uma investigação, esteja ciente das seguintes considerações importantes:

  • A execução de um runbook incorrerá em cobranças. Para obter mais informações, consulte Definição de preço do AWS Systems Manager.

  • As causas raiz e as sugestões do runbook são alimentadas por raciocínio automatizado e serviços de inteligência artificial generativa.

    Importante

    Você é responsável pelas ações resultantes da execução das etapas do runbook e pela escolha dos valores dos parâmetros inseridos durante sua execução. Talvez seja necessário editar o runbook sugerido para garantir que ele seja executado conforme o esperado. Para obter mais informações, consulte Política de IA responsável da AWS.

  • Dependendo do runbook, talvez seja necessário inserir valores para os parâmetros de entrada dele antes que possa ser executado.

  • O runbook é executado usando as permissões do IAM atribuídas ao operador. Se necessário, faça login com diferentes permissões do IAM para executar o runbook. Além das permissões para as ações que estão sendo realizadas, você precisará de permissões adicionais do Systems Manager para executar as etapas do runbook. Para obter mais informações, consulte Configuração de Automação no Guia do usuário do AWS Systems Manager.

Para revisar e executar ações do runbook sugeridas para investigações do CloudWatch
  1. Para visualizar as informações sobre um runbook sugerido, escolha Analisar para obter as informações sobre como executar as etapas do runbook.

    Na página de detalhes da investigação, escolha Sugestões.

  2. No painel Sugestões, analise a lista de hipóteses com base na análise do sistema sobre o problema sob investigação.

    Para cada hipótese, você pode escolher as seguintes opções:

    • Mostrar raciocínio: confira mais informações sobre por que o sistema gerou a hipótese.

    • Visualizar ações: confira as ações sugeridas para o problema. Nem todas as hipóteses incluirão ações sugeridas.

    • Aceitar: aceite a hipótese e adicione-a à seção Feed da investigação.

      nota

      Aceitar a hipótese não executa automaticamente a solução do runbook associado. Você pode visualizar os runbooks sugeridos antes de aceitar uma hipótese, mas deve aceitar a hipótese para executar um runbook.

    • Descartar: rejeite a hipótese e não a acione mais.

  3. Depois de escolher Visualizar ação, no painel Ações sugeridas, analise a lista de ações sugeridas que você pode executar para resolver o problema. As ações sugeridas podem incluir uma ou mais das seguintes opções:

    • Artigos de conhecimento da AWS: fornece informações sobre as etapas que você pode realizar para resolver o problema manualmente, além de um link para obter mais informações.

    • Documentação da AWS: fornece links para tópicos de documentação do usuário relacionados ao problema.

    • Runbooks de propriedade da AWS: lista um ou mais runbooks do Automation que são gerenciados pela AWS que podem ser executados para tentar resolver problemas.

    • Runbooks de sua propriedade: lista um ou mais runbooks do Automation personalizados criados por você ou por outra pessoa na sua conta ou organização que podem ser executados para tentar resolver problemas.

      nota

      O sistema gera automaticamente essa lista de runbooks avaliando palavras-chave em seus runbooks personalizados e depois comparando-as com termos relacionados ao problema que está sendo investigado.

      Mais correspondências de palavras-chave significam que um determinado runbook personalizado aparece no topo da lista Runbooks de sua propriedade.

  4. Depois de analisar a hipótese, você pode examinar mais detalhadamente uma ação específica sugerida e ler a documentação relacionada escolhendo Saiba mais. Você também pode escolher Analisar detalhes para inspecionar os runbooks sugeridos de sua propriedade e de propriedade da AWS.

  5. Ao escolher Analisar detalhes dos runbooks, faça o seguinte:

    1. Em Descrição do runbook, analise o conteúdo, que fornece uma visão geral das ações que o runbook pode executar para corrigir o problema que está sendo investigado. Escolha Visualizar etapas para conferir o fluxo de trabalho do runbook e verificar os detalhes de etapas individuais.

    2. Em Parâmetros de entrada, especifique os valores para quaisquer parâmetros exigidos pelo runbook. Esses parâmetros variam em conformidade com o runbook.

    3. Em Pré-visualização do runbook, analise cuidadosamente as informações. Essas informações explicam qual seria o escopo e o impacto se você optasse por executar o runbook.

      O conteúdo da Pré-visualização do runbook fornece as seguintes informações:

      • Em quantas regiões e contas a operação do runbook ocorrerá.

      • Os tipos de ações que serão executadas e quantas de cada tipo.

        Os tipos de ações incluem os seguintes:

        • Mutating: uma etapa do runbook faria alterações nos alvos por meio de ações que criam, modificam ou excluem recursos.

        • Non-Mutating: uma etapa do runbook recuperaria dados sobre recursos, mas não faria alterações neles. Essa categoria geralmente inclui Describe, List, Get e ações similares de API somente leitura.

        • Undetermined: uma etapa indeterminada invoca execuções realizadas por outro serviço de orquestração, como o AWS Lambda, o AWS Step Functions ou o Run Command, um recurso do AWS Systems Manager. Uma etapa indeterminada também pode chamar uma API de terceiros ou executar um script Python ou PowerShell. O Systems Manager Automation não consegue detectar qual seria o resultado dos processos de orquestração ou das execuções de API de terceiros e, portanto, não pode avaliá-los. Os resultados dessas etapas precisariam ser revisados manualmente para determinar seus impactos.

        Para obter informações sobre as ações compatíveis e seus tipos de impacto, consulte Tipos de impacto de remediação de ações do runbook no Guia do usuário do AWS Systems Manager.

    4. Revise as informações resultantes da prévia com cuidado antes de decidir se deseja continuar.

      Nesse ponto, você pode escolher uma das seguintes ações:

      • Parar e não executar o runbook.

      • Altere os parâmetros de entrada antes de executar o runbook.

      • Execute o runbook com as opções que você já selecionou.

    Importante

    A execução do runbook incorrerá em cobranças. Para obter mais informações, consulte Definição de preço do AWS Systems Manager.

  6. Caso queira executar o runbook, escolha Executar.

    Caso já tenha aceitado a hipótese, a execução será realizada.

    Caso ainda não tenha aceitado a hipótese, uma caixa de diálogo solicitará que você a aceite antes que a execução seja realizada.

Depois de escolher Executar para um runbook, essa ação será adicionada ao painel Feed da investigação. Na investigação, você pode monitorar os novos dados nas métricas das descobertas para conferir se as ações do runbook estão corrigindo o problema.