Terminologia de relatórios de incidentes
Os termos a seguir são usados nos relatórios de incidentes das investigações do CloudWatch:
- Fato derivado por IA
-
Uma informação ou observação que o sistema de IA considera objetivamente verdadeira ou altamente provável com base em dados, telemetria, logs e padrões históricos disponíveis nos serviços da AWS. Esses fatos são derivados por análise algorítmica e modelos de machine learning e, embora sejam tratados como confiáveis pelo sistema, devem ser submetidos à verificação humana, especialmente em contextos de tomada de decisões importantes. Os fatos derivados por IA podem incluir correlações entre eventos, detecções de anomalias ou inferências sobre o comportamento do sistema que podem não ser imediatamente aparentes para operadores humanos.
- Ações corretivas
-
Etapas específicas e acionáveis recomendadas pelas investigações do CloudWatch para tratar a causa primária de um incidente e evitar sua recorrência, com base nas práticas recomendadas da AWS e no contexto específico dos recursos afetados.
- Categorias de fatos
-
Agrupamentos estruturados de informações relacionadas ao incidente, como métricas de impacto, detalhes sobre a detecção e etapas de mitigação, usados para organizar os dados para geração de relatórios.
- Avaliação de impacto
-
Uma avaliação quantitativa e qualitativa dos efeitos de um incidente na performance do sistema, na experiência do usuário e nas operações da empresa, derivada das métricas do CloudWatch e de dados de outros serviços da AWS adicionados à investigação.
- Geração de relatório de incidente
-
Um processo automatizado que cria uma documentação abrangente sobre um incidente operacional, incluindo cronograma, impacto, causa primária e etapas de resolução, com base nos dados coletados durante uma investigação do recurso de investigações do CloudWatch.
- Feed de investigação
-
Uma exibição cronológica de observações aceitas, hipóteses e notas adicionadas pelo usuário em uma investigação do recurso de investigações do CloudWatch, que serve como o registro principal do progresso e das descobertas da investigação.
- Lições aprendidas
-
Insights gerados automaticamente e oportunidades de aprimoramento identificadas pelo processo de investigação de incidentes, que têm o objetivo de melhorar a confiabilidade do sistema, a eficiência operacional e os recursos de resposta a incidentes em toda a organização.
- Relatório de avaliação
-
Uma avaliação automatizada do relatório do incidente gerado, identificando possíveis lacunas de dados ou áreas que exigem informações adicionais para melhorar a qualidade do relatório e torná-lo mais completo.
- Análise da causa primária
-
Um processo sistemático de identificação do motivo fundamental de um problema operacional, que utiliza as hipóteses e correlações geradas pela IA das investigações do CloudWatch em vários serviços da AWS.
- Guia Sugestões
-
Um atributo das investigações do CloudWatch que apresenta observações e hipóteses geradas por IA sobre possíveis causas ou problemas relacionados, com base na análise de dados de telemetria e logs do sistema.
- Eventos do cronograma
-
Uma sequência cronológica de ocorrências significativas durante um incidente, extraída automaticamente de logs e métricas do CloudWatch, e de dados de outros serviços da AWS para fornecer uma visão geral clara da progressão do incidente.