Terminologia de relatórios de incidentes - Amazon CloudWatch

Terminologia de relatórios de incidentes

Os termos a seguir são usados nos relatórios de incidentes das investigações do CloudWatch:

Fato derivado por IA

Uma informação ou observação que o sistema de IA considera objetivamente verdadeira ou altamente provável com base em dados, telemetria, logs e padrões históricos disponíveis nos serviços da AWS. Esses fatos são derivados por análise algorítmica e modelos de machine learning e, embora sejam tratados como confiáveis pelo sistema, devem ser submetidos à verificação humana, especialmente em contextos de tomada de decisões importantes. Os fatos derivados por IA podem incluir correlações entre eventos, detecções de anomalias ou inferências sobre o comportamento do sistema que podem não ser imediatamente aparentes para operadores humanos.

Ações corretivas

Etapas específicas e acionáveis recomendadas pelas investigações do CloudWatch para tratar a causa primária de um incidente e evitar sua recorrência, com base nas práticas recomendadas da AWS e no contexto específico dos recursos afetados.

Categorias de fatos

Agrupamentos estruturados de informações relacionadas ao incidente, como métricas de impacto, detalhes sobre a detecção e etapas de mitigação, usados para organizar os dados para geração de relatórios.

Avaliação de impacto

Uma avaliação quantitativa e qualitativa dos efeitos de um incidente na performance do sistema, na experiência do usuário e nas operações da empresa, derivada das métricas do CloudWatch e de dados de outros serviços da AWS adicionados à investigação.

Geração de relatório de incidente

Um processo automatizado que cria uma documentação abrangente sobre um incidente operacional, incluindo cronograma, impacto, causa primária e etapas de resolução, com base nos dados coletados durante uma investigação do recurso de investigações do CloudWatch.

Feed de investigação

Uma exibição cronológica de observações aceitas, hipóteses e notas adicionadas pelo usuário em uma investigação do recurso de investigações do CloudWatch, que serve como o registro principal do progresso e das descobertas da investigação.

Lições aprendidas

Insights gerados automaticamente e oportunidades de aprimoramento identificadas pelo processo de investigação de incidentes, que têm o objetivo de melhorar a confiabilidade do sistema, a eficiência operacional e os recursos de resposta a incidentes em toda a organização.

Relatório de avaliação

Uma avaliação automatizada do relatório do incidente gerado, identificando possíveis lacunas de dados ou áreas que exigem informações adicionais para melhorar a qualidade do relatório e torná-lo mais completo.

Análise da causa primária

Um processo sistemático de identificação do motivo fundamental de um problema operacional, que utiliza as hipóteses e correlações geradas pela IA das investigações do CloudWatch em vários serviços da AWS.

Guia Sugestões

Um atributo das investigações do CloudWatch que apresenta observações e hipóteses geradas por IA sobre possíveis causas ou problemas relacionados, com base na análise de dados de telemetria e logs do sistema.

Eventos do cronograma

Uma sequência cronológica de ocorrências significativas durante um incidente, extraída automaticamente de logs e métricas do CloudWatch, e de dados de outros serviços da AWS para fornecer uma visão geral clara da progressão do incidente.