Investigações do CloudWatch - Amazon CloudWatch

Investigações do CloudWatch

O recurso de investigações do CloudWatch é um assistente baseado em IA generativa que pode ajudar você a responder a incidentes no sistema. Usa IA generativa para examinar a telemetria do sistema e apresentar rapidamente dados de telemetria e sugestões que possam estar relacionados ao problema. Essas sugestões incluem métricas, logs, eventos de implantação e hipóteses sobre a causa primária com representações visuais quando vários recursos estão envolvidos. Para obter uma lista completa dos tipos de dados que o assistente de IA pode apresentar, consulte Insights que as investigações do CloudWatch podem revelar.

Você pode conduzir investigações sem nenhuma configuração adicional na solução de problemas operacionais do CloudWatch. Quando você inicia uma investigação, o recurso de investigações do CloudWatch usa as permissões associadas ao usuário que fez login para investigar e analisar os recursos associados ao alarme, às métricas ou à consulta ao Logs Insights e fornecer sugestões para a solução de problemas. Nenhum recurso é criado pela investigação, e todas as ações realizadas pelas investigações do CloudWatch são registradas em log no CloudTrail para garantir rastreabilidade. A investigação fornece as seguintes informações para ajudar a solucionar problemas operacionais:

  • Visualizar as observações, sugestões e hipóteses geradas por IA

  • Acessar as representações visuais de hipóteses sobre vários recursos

  • Revisar as explicações em linguagem natural e as análises de causa primária

  • Acessar análise por IA de dados de telemetria, incluindo métricas, logs, eventos de implantação, eventos de AWS Health, eventos de alteração do CloudTrail, dados de rastro do X-Ray e consultas ao CloudWatch Logs Insights

    A configuração das investigações do CloudWatch fornecerá a você investigações mais aprofundadas.

Quando você configura o recurso de investigações do CloudWatch, as investigações contam com os seguintes recursos adicionais:

  • Aceitar ou descartar sugestões e observações

    Para cada sugestão, você decide se quer adicioná-la às descobertas da investigação ou descartá-la. Isso ajuda as investigações do CloudWatch a refinar e iterar em direção à causa raiz do problema. As investigações do CloudWatch podem ajudar você a encontrar a causa raiz sem precisar identificar e consultar manualmente várias métricas e outras fontes de telemetria e eventos. Uma solução de problemas que exigiria horas de pesquisa e transições de um console para outro pode ser resolvido muito mais rapidamente.

  • Configurar acesso entre contas

    Use a observabilidade entre contas do CloudWatch para permitir que a investigação colete dados de outras contas.

  • Adicionar novas fontes de telemetria à investigação

    Adicionar dados do histórico de eventos do CloudTrail ajuda as investigações do CloudWatch a associar problemas a eventos de alteração. A adição do X-Ray fornece topologia e mapeamento de aplicação aprimorados. Você também pode adicionar dados do Application Signals para examinar mais a fundo a integridade das aplicações e dos serviços, combinando esses dados de telemetria com os de outras fontes de telemetria. Se você usar clusters do Amazon EKS, poderá conceder às investigações do CloudWatch acesso aos recursos do EKS para fornecer informações mais granulares sobre os recursos do cluster que possam estar envolvidos no problema sendo investigado.

  • Adicionar observações ou comentários às descobertas da investigação

    Poder fornecer mais contexto à descoberta da investigação para adicionar perspectiva durante relatórios ou auditorias.

  • Realizar as correções sugeridas no runbook

    As investigações do CloudWatch podem sugerir que você use um runbook do Automation para tentar resolver automaticamente o problema. O Automation é um recurso do Systems Manager, outro serviço da AWS. Os runbooks do Automation definem uma série de etapas, ou ações, a serem executadas nos recursos que você seleciona. Cada runbook é projetado para resolver um problema específico.

  • Compartilhar resultados de investigações com membros da equipe

    Sem nenhuma configuração adicional, as investigações são vinculadas à sessão do usuário que fez login. Outros usuários não podem ver os resultados das investigações nem dar continuidade a elas. Depois de configuradas, as investigações do CloudWatch ficam disponíveis a todos os usuários da conta com as permissões necessárias.

  • Encerrar, arquivar ou reabrir a investigação manualmente

    Antes do recurso de investigações do CloudWatch ser configurado em sua conta, as investigações são executadas uma única vez e estão concluídas. Depois que recurso de investigações do CloudWatch é configurado, as investigações podem continuar até serem resolvidas. Depois que o problema é resolvido, a investigação é arquivada. Se o problema foi resolvido, mas as condições que causaram a investigação permanecerem, é possível encerrar a investigação manualmente. Se as condições ocorrem novamente, você poderá reiniciar (ou reabrir) a investigação.

  • Relatórios da investigação

    Ao concluir uma investigação, você pode gerar um relatório abrangente que capture automaticamente todas as descobertas da investigação, os eventos do cronograma e as ações recomendadas.

Configurar as investigações do CloudWatch cria um grupo de investigações na sua conta. Cada conta pode ter apenas um grupo de investigações com até 2 investigações simultâneas ativas. Cada conta pode criar, por mês, até 150 investigações avançadas com análise por IA. Os grupos de investigações são configurações ao nível da conta. Quando um grupo de investigações é criado em uma conta, ele é usado com todas as investigações iniciadas na conta.

nota

Quando você configura as investigações do CloudWatch, ele usa o perfil do IAM fornecido para examinar periodicamente os recursos da sua conta com a finalidade de mapear recursos e telemetria. Alguns serviços, como o Lambda, invocarão a API de descriptografia do KMS em nome do CloudWatch para determinadas chamadas de API relacionadas à descrição ou listagem de recursos. Esse processo em segundo plano é executado para garantir que a topologia reflita o estado mais recente da conta e suas dependências. Essa atualização ocorre independentemente de haver uma investigação ativa ou não.