Terminologia de relatórios de incidentes

Os termos a seguir são usados nos relatórios de incidentes das investigações do CloudWatch:

Fato derivado por IA: Uma informação ou observação que o sistema de IA considera objetivamente verdadeira ou altamente provável com base em dados, telemetria, logs e padrões históricos disponíveis nos serviços da AWS. Esses fatos são derivados por análise algorítmica e modelos de machine learning e, embora sejam tratados como confiáveis pelo sistema, devem ser submetidos à verificação humana, especialmente em contextos de tomada de decisões importantes. Os fatos derivados por IA podem incluir correlações entre eventos, detecções de anomalias ou inferências sobre o comportamento do sistema que podem não ser imediatamente aparentes para operadores humanos.
Ações corretivas: Etapas específicas e acionáveis recomendadas pelas investigações do CloudWatch para tratar a causa primária de um incidente e evitar sua recorrência, com base nas práticas recomendadas da AWS e no contexto específico dos recursos afetados.
Categorias de fatos: Agrupamentos estruturados de informações relacionadas ao incidente, como métricas de impacto, detalhes sobre a detecção e etapas de mitigação, usados para organizar os dados para geração de relatórios.
Avaliação de impacto: Uma avaliação quantitativa e qualitativa dos efeitos de um incidente na performance do sistema, na experiência do usuário e nas operações da empresa, derivada das métricas do CloudWatch e de dados de outros serviços da AWS adicionados à investigação.
Geração de relatório de incidente: Um processo automatizado que cria uma documentação abrangente sobre um incidente operacional, incluindo cronograma, impacto, causa primária e etapas de resolução, com base nos dados coletados durante uma investigação do recurso de investigações do CloudWatch.
Feed de investigação: Uma exibição cronológica de observações aceitas, hipóteses e notas adicionadas pelo usuário em uma investigação do recurso de investigações do CloudWatch, que serve como o registro principal do progresso e das descobertas da investigação.
Lições aprendidas: Insights gerados automaticamente e oportunidades de aprimoramento identificadas pelo processo de investigação de incidentes, que têm o objetivo de melhorar a confiabilidade do sistema, a eficiência operacional e os recursos de resposta a incidentes em toda a organização.
Relatório de avaliação: Uma avaliação automatizada do relatório do incidente gerado, identificando possíveis lacunas de dados ou áreas que exigem informações adicionais para melhorar a qualidade do relatório e torná-lo mais completo.
Análise da causa primária: Um processo sistemático de identificação do motivo fundamental de um problema operacional, que utiliza as hipóteses e correlações geradas pela IA das investigações do CloudWatch em vários serviços da AWS.
Guia Sugestões: Um atributo das investigações do CloudWatch que apresenta observações e hipóteses geradas por IA sobre possíveis causas ou problemas relacionados, com base na análise de dados de telemetria e logs do sistema.
Eventos do cronograma: Uma sequência cronológica de ocorrências significativas durante um incidente, extraída automaticamente de logs e métricas do CloudWatch, e de dados de outros serviços da AWS para fornecer uma visão geral clara da progressão do incidente.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Entender os fatos derivados por IA em relatórios de incidentes

Gerar um relatório a partir de uma investigação