As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Como o monitoramento e o gerenciamento de incidentes do Amazon EKS funcionam no AMS Accelerate
Geração: como parte do monitoramento de integração e do gerenciamento de incidentes do EKS, o AMS configura o monitoramento básico para os clusters do Amazon EKS que você selecionou em sua conta gerenciada. O AMS usa uma combinação das regras do gerenciador de alertas do Amazon Managed Service for Prometheus e das regras de eventos da CloudWatch Amazon para configurar o monitoramento básico. Um servidor Prometheus configurado pelo AMS em seu cluster coleta e grava remotamente suas métricas do Prometheus em um endpoint do Amazon Managed Service for Prometheus na mesma região. A configuração básica de monitoramento gera um alerta quando uma regra do gerenciador de alertas do Prometheus é acionada ou CloudWatch um evento é gerado.
Agregação: o AMS envia todos os alertas que seus recursos geram para o sistema de monitoramento do AMS, direcionando-os para um tópico do Amazon Simple Notification Service gerenciado pelo AMS.
Processamento e análise de impacto: o AMS analisa os alertas e os processa com base em seu potencial de impacto. O AMS classifica os alertas da seguinte forma:
Alertas com impacto conhecido no cliente: para esses alertas, o AMS cria um novo relatório de incidentes usando o processo de gerenciamento de incidentes.
Alertas com impacto incerto no cliente: para esses alertas, o AMS envia um relatório de incidentes. Em muitos casos, esses alertas solicitam que você verifique o impacto antes que o AMS possa agir. Para esses alertas, o AMS envia uma notificação de alerta com os detalhes e verifica se o alerta precisa de uma ação mitigadora. O AMS fornece opções para mitigar ações na notificação. Se sua resposta confirmar que o alerta é um incidente, o AMS aciona a criação de um novo relatório de incidentes e inicia o processo de gerenciamento de incidentes. Qualquer notificação de serviço que receba uma resposta “sem impacto no cliente” ou nenhuma resposta por três dias é marcada como resolvida. Além disso, o alerta correspondente é marcado como resolvido.
Alertas sem impacto no cliente: se, após a avaliação, o AMS determinar que o alerta não tem nenhum impacto no cliente, o alerta será encerrado.
Matriz de responsabilidade da AMS (RACI)
O AMS responsável, responsável, consultado e informado, ou a matriz RACI, atribui a responsabilidade principal ao cliente ou à AMS por uma variedade de atividades. A tabela a seguir fornece uma visão geral das responsabilidades do cliente e do AMS pelas atividades em um aplicativo que usa monitoramento e gerenciamento de incidentes para o Amazon EKS.
R significa a parte responsável que faz o trabalho para realizar a tarefa.
A significa a parte responsável.
C significa consultado; a parte cujas opiniões são solicitadas, normalmente como especialistas no assunto; e com quem há comunicação bilateral.
I significa informado; a parte que é informada sobre o progresso, geralmente apenas após a conclusão da tarefa ou do resultado final.
| Atividades | Cliente | AMS |
|---|---|---|
Descoberta para requisitos de AMS |
eu |
R |
Ativar permissões AMS (RBAC) para acesso ao cluster |
R |
C |
|
Instale o Amazon EC2 Systems Manager Agent nos nós de trabalho, caso ele ainda não esteja presente |
R | C |
|
Implante componentes do AMS no cluster, como Prometheus, Prometheus Node Exporter e em um namespace AMS, conforme necessário. kube-state-metrics |
C | R |
|
Provisione o Amazon Managed Service para Prometheus no plano de controle do AMS |
eu | R |
|
Configurar o gerenciador de alertas Prometheus no plano de controle do AMS |
eu | R |
|
Forneça o modelo Amazon Managed Grafana e ajude na configuração |
C | R |
|
Ative o monitoramento do registro de auditoria do GuardDuty EKS |
C | R |
|
Habilite o registro do plano de controle do Amazon EKS |
eu | R |
|
Monitore a integridade e o desempenho do plano de controle Amazon EKS |
eu | R |
|
Monitore a integridade e o desempenho do seu cluster Amazon EKS (cluster, nó, carga de trabalho, pod, servidor de API e CoreDNS) |
eu | R |
|
Faça a triagem de alertas e forneça respostas a incidentes para o Amazon EKS |
eu | R |
|
Execute comandos de diagnóstico durante incidentes |
eu | R |
|
Analise os registros durante incidentes (plano de controle e registros do pod) |
eu | R |
|
Resposta a incidentes para problemas AWS de rede |
eu | R |
|
Responda às descobertas do GuardDuty EKS Audit Log Monitoring |
eu | R |
|
Forneça orientação ao cliente sobre ações para remediar incidentes quando possível |
eu | R |