Matriz de responsabilidade da AMS (RACI)

Como o monitoramento e o gerenciamento de incidentes do Amazon EKS funcionam no AMS Accelerate

Geração: como parte do monitoramento de integração e do gerenciamento de incidentes do EKS, o AMS configura o monitoramento básico para os clusters do Amazon EKS que você selecionou em sua conta gerenciada. O AMS usa uma combinação das regras do gerenciador de alertas do Amazon Managed Service for Prometheus e das regras de eventos da CloudWatch Amazon para configurar o monitoramento básico. Um servidor Prometheus configurado pelo AMS em seu cluster coleta e grava remotamente suas métricas do Prometheus em um endpoint do Amazon Managed Service for Prometheus na mesma região. A configuração básica de monitoramento gera um alerta quando uma regra do gerenciador de alertas do Prometheus é acionada ou CloudWatch um evento é gerado.

Agregação: o AMS envia todos os alertas que seus recursos geram para o sistema de monitoramento do AMS, direcionando-os para um tópico do Amazon Simple Notification Service gerenciado pelo AMS.

Processamento e análise de impacto: o AMS analisa os alertas e os processa com base em seu potencial de impacto. O AMS classifica os alertas da seguinte forma:

Alertas com impacto conhecido no cliente: para esses alertas, o AMS cria um novo relatório de incidentes usando o processo de gerenciamento de incidentes.
Alertas com impacto incerto no cliente: para esses alertas, o AMS envia um relatório de incidentes. Em muitos casos, esses alertas solicitam que você verifique o impacto antes que o AMS possa agir. Para esses alertas, o AMS envia uma notificação de alerta com os detalhes e verifica se o alerta precisa de uma ação mitigadora. O AMS fornece opções para mitigar ações na notificação. Se sua resposta confirmar que o alerta é um incidente, o AMS aciona a criação de um novo relatório de incidentes e inicia o processo de gerenciamento de incidentes. Qualquer notificação de serviço que receba uma resposta “sem impacto no cliente” ou nenhuma resposta por três dias é marcada como resolvida. Além disso, o alerta correspondente é marcado como resolvido.
Alertas sem impacto no cliente: se, após a avaliação, o AMS determinar que o alerta não tem nenhum impacto no cliente, o alerta será encerrado.

Matriz de responsabilidade da AMS (RACI)

O AMS responsável, responsável, consultado e informado, ou a matriz RACI, atribui a responsabilidade principal ao cliente ou à AMS por uma variedade de atividades. A tabela a seguir fornece uma visão geral das responsabilidades do cliente e do AMS pelas atividades em um aplicativo que usa monitoramento e gerenciamento de incidentes para o Amazon EKS.

R significa a parte responsável que faz o trabalho para realizar a tarefa.
A significa a parte responsável.
C significa consultado; a parte cujas opiniões são solicitadas, normalmente como especialistas no assunto; e com quem há comunicação bilateral.
I significa informado; a parte que é informada sobre o progresso, geralmente apenas após a conclusão da tarefa ou do resultado final.

Atividades	Cliente	AMS
Descoberta para requisitos de AMS	eu	R
Ativar permissões AMS (RBAC) para acesso ao cluster	R	C
Instale o Amazon EC2 Systems Manager Agent nos nós de trabalho, caso ele ainda não esteja presente	R	C
Implante componentes do AMS no cluster, como Prometheus, Prometheus Node Exporter e em um namespace AMS, conforme necessário. kube-state-metrics	C	R
Provisione o Amazon Managed Service para Prometheus no plano de controle do AMS	eu	R
Configurar o gerenciador de alertas Prometheus no plano de controle do AMS	eu	R
Forneça o modelo Amazon Managed Grafana e ajude na configuração	C	R
Ative o monitoramento do registro de auditoria do GuardDuty EKS	C	R
Habilite o registro do plano de controle do Amazon EKS	eu	R
Monitore a integridade e o desempenho do plano de controle Amazon EKS	eu	R
Monitore a integridade e o desempenho do seu cluster Amazon EKS (cluster, nó, carga de trabalho, pod, servidor de API e CoreDNS)	eu	R
Faça a triagem de alertas e forneça respostas a incidentes para o Amazon EKS	eu	R
Execute comandos de diagnóstico durante incidentes	eu	R
Analise os registros durante incidentes (plano de controle e registros do pod)	eu	R
Resposta a incidentes para problemas AWS de rede	eu	R
Responda às descobertas do GuardDuty EKS Audit Log Monitoring	eu	R
Forneça orientação ao cliente sobre ações para remediar incidentes quando possível	eu	R

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

O que é monitoramento e gerenciamento de incidentes para o Amazon EKS?

Alertas de linha de base