View a markdown version of this page

Como o monitoramento e o gerenciamento de incidentes do Amazon EKS funcionam no AMS Accelerate - Guia do usuário do AMS Accelerate

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Como o monitoramento e o gerenciamento de incidentes do Amazon EKS funcionam no AMS Accelerate

Geração: como parte do monitoramento de integração e do gerenciamento de incidentes do EKS, o AMS configura o monitoramento básico para os clusters do Amazon EKS que você selecionou em sua conta gerenciada. O AMS usa uma combinação das regras do gerenciador de alertas do Amazon Managed Service for Prometheus e das regras de eventos da CloudWatch Amazon para configurar o monitoramento básico. Um servidor Prometheus configurado pelo AMS em seu cluster coleta e grava remotamente suas métricas do Prometheus em um endpoint do Amazon Managed Service for Prometheus na mesma região. A configuração básica de monitoramento gera um alerta quando uma regra do gerenciador de alertas do Prometheus é acionada ou CloudWatch um evento é gerado.

Agregação: o AMS envia todos os alertas que seus recursos geram para o sistema de monitoramento do AMS, direcionando-os para um tópico do Amazon Simple Notification Service gerenciado pelo AMS.

Processamento e análise de impacto: o AMS analisa os alertas e os processa com base em seu potencial de impacto. O AMS classifica os alertas da seguinte forma:

  • Alertas com impacto conhecido no cliente: para esses alertas, o AMS cria um novo relatório de incidentes usando o processo de gerenciamento de incidentes.

  • Alertas com impacto incerto no cliente: para esses alertas, o AMS envia um relatório de incidentes. Em muitos casos, esses alertas solicitam que você verifique o impacto antes que o AMS possa agir. Para esses alertas, o AMS envia uma notificação de alerta com os detalhes e verifica se o alerta precisa de uma ação mitigadora. O AMS fornece opções para mitigar ações na notificação. Se sua resposta confirmar que o alerta é um incidente, o AMS aciona a criação de um novo relatório de incidentes e inicia o processo de gerenciamento de incidentes. Qualquer notificação de serviço que receba uma resposta “sem impacto no cliente” ou nenhuma resposta por três dias é marcada como resolvida. Além disso, o alerta correspondente é marcado como resolvido.

  • Alertas sem impacto no cliente: se, após a avaliação, o AMS determinar que o alerta não tem nenhum impacto no cliente, o alerta será encerrado.

Matriz de responsabilidade da AMS (RACI)

O AMS responsável, responsável, consultado e informado, ou a matriz RACI, atribui a responsabilidade principal ao cliente ou à AMS por uma variedade de atividades. A tabela a seguir fornece uma visão geral das responsabilidades do cliente e do AMS pelas atividades em um aplicativo que usa monitoramento e gerenciamento de incidentes para o Amazon EKS.

  • R significa a parte responsável que faz o trabalho para realizar a tarefa.

  • A significa a parte responsável.

  • C significa consultado; a parte cujas opiniões são solicitadas, normalmente como especialistas no assunto; e com quem há comunicação bilateral.

  • I significa informado; a parte que é informada sobre o progresso, geralmente apenas após a conclusão da tarefa ou do resultado final.

Atividades Cliente AMS

Descoberta para requisitos de AMS

eu

R

Ativar permissões AMS (RBAC) para acesso ao cluster

R

C

Instale o Amazon EC2 Systems Manager Agent nos nós de trabalho, caso ele ainda não esteja presente

R C

Implante componentes do AMS no cluster, como Prometheus, Prometheus Node Exporter e em um namespace AMS, conforme necessário. kube-state-metrics

C R

Provisione o Amazon Managed Service para Prometheus no plano de controle do AMS

eu R

Configurar o gerenciador de alertas Prometheus no plano de controle do AMS

eu R

Forneça o modelo Amazon Managed Grafana e ajude na configuração

C R

Ative o monitoramento do registro de auditoria do GuardDuty EKS

C R

Habilite o registro do plano de controle do Amazon EKS

eu R

Monitore a integridade e o desempenho do plano de controle Amazon EKS

eu R

Monitore a integridade e o desempenho do seu cluster Amazon EKS (cluster, nó, carga de trabalho, pod, servidor de API e CoreDNS)

eu R

Faça a triagem de alertas e forneça respostas a incidentes para o Amazon EKS

eu R

Execute comandos de diagnóstico durante incidentes

eu R

Analise os registros durante incidentes (plano de controle e registros do pod)

eu R

Resposta a incidentes para problemas AWS de rede

eu R

Responda às descobertas do GuardDuty EKS Audit Log Monitoring

eu R

Forneça orientação ao cliente sobre ações para remediar incidentes quando possível

eu R