

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Alertas no Amazon EKS
<a name="alerting"></a>

O alerta é um componente essencial do gerenciamento e manutenção de aplicativos executados no Amazon EKS. Ele serve como um sistema de alerta precoce que notifica operadores e desenvolvedores sobre possíveis problemas, anomalias ou degradações de desempenho antes que eles se transformem em problemas graves que possam afetar a disponibilidade do serviço ou a experiência do usuário. O alerta envolve o monitoramento de vários aspectos do cluster Kubernetes, incluindo:
+ Saúde da infraestrutura
+ Desempenho do aplicativo
+ Métricas de contêiner
+ Métricas de negócios personalizadas

Os alertas eficazes no Amazon EKS vão além da simples configuração de notificações. Isso requer uma well-thought-out estratégia que equilibre a necessidade de informações oportunas com o potencial de fadiga de alerta. Essa estratégia deve:
+ Defina limites e condições significativos.
+ Priorize os alertas com base na gravidade e no impacto.
+ Implemente procedimentos adequados de roteamento e escalonamento.
+ Integre-se às ferramentas de gerenciamento e comunicação de incidentes.

**Topics**
+ [Ferramentas](alerting-tools.md)
+ [Práticas recomendadas](alerting-best-practices.md)

# Ferramentas de alerta para o Amazon EKS
<a name="alerting-tools"></a>

O Amazon EKS oferece suporte a várias opções AWS e a de terceiros para implementar alertas. Ao escolher uma ferramenta para alertar o Amazon EKS, considere fatores como recursos de integração, escalabilidade, facilidade de uso, custo e recursos específicos que se alinham aos seus requisitos de monitoramento e alerta. Muitas organizações usam uma combinação dessas ferramentas para criar uma solução abrangente de monitoramento e alerta para seus ambientes Amazon EKS.
+ [Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html): **AWS service (Serviço da AWS) **para monitoramento e observabilidade

  CloudWatch fornece métricas, registros e alarmes para clusters EKS e se integra bem com outros. Serviços da AWS
+ [Prometheus](https://docs.aws.amazon.com/eks/latest/userguide/deploy-prometheus.html): ferramenta de monitoramento e alerta de código aberto para Kubernetes

  O Prometheus fornece uma linguagem de consulta poderosa (PromQL) para definir condições de alerta.
+ [Alertmanager](https://prometheus.io/docs/alerting/latest/alertmanager/): companheiro do Prometheus para lidar com alertas

  O Alertmanager fornece desduplicação, agrupamento e roteamento de alertas. Ele suporta vários canais de notificação, incluindo e-mail, Slack e. PagerDuty
+ [Grafana](https://aws.amazon.com/grafana/): plataforma de código aberto para monitoramento e observabilidade

  O Grafana fornece recursos de visualização e alerta. Ele pode se integrar a várias fontes de dados, incluindo Prometheus e. CloudWatch
+ [Elastic Stack (ELK Stack)](https://aws.amazon.com/what-is/elk-stack/): combinação de Elasticsearch, Logstash e Kibana

  Essa ferramenta é útil para agregação, análise e alertas de registros. Ele pode ser estendido com os recursos de observabilidade da Elastic.
+ Soluções de terceiros

  Há muitas ferramentas disponíveis no mercado, incluindo Datadog, New Relic, Sysdig, Dynatrace, Zabbix, Nagios, Splunk, IBM Instana e. AppDynamics

# Melhores práticas para alertas no Amazon EKS
<a name="alerting-best-practices"></a>

Esta seção descreve as melhores práticas para criar um sistema de alerta robusto que aprimora a confiabilidade e o desempenho de seus aplicativos baseados em Kubernetes no Amazon EKS.

Defina limites claros de alerta:
+ Defina limites significativos com base em dados históricos e requisitos de negócios.
+ Use limites dinâmicos quando apropriado para contabilizar cargas de trabalho variáveis.

Implemente a priorização de alertas:
+ Categorize os alertas por gravidade (por exemplo, crítico, alto, médio e baixo).
+ Alinhe as prioridades de alerta com o impacto nos negócios.

Evite a fadiga de alerta:
+ Reduza o ruído eliminando alertas redundantes ou de baixo valor.
+ Correlacione alertas a problemas relacionados ao grupo.

Use alertas em vários estágios:
+ Implemente limites de aviso antes que os níveis críticos sejam atingidos.
+ Use canais de notificação diferentes para diferentes severidades de alerta.

Implemente o roteamento de alertas adequado:
+ Certifique-se de que os alertas sejam enviados para as equipes ou indivíduos certos.
+ Use horários e rotações de plantão para a cobertura do dia todo, todos os dias.

Aproveite as métricas nativas do Kubernetes:
+ Monitore os principais componentes do Kubernetes (nós, pods, serviços).
+ Use [kube-state-metrics (KSM) para obter métricas](https://github.com/kubernetes/kube-state-metrics) adicionais de objetos do Kubernetes.

Monitore a infraestrutura e os aplicativos:
+ Configure alertas para a integridade do cluster, o status do nó e a utilização de recursos.
+ Implemente alertas específicos do aplicativo, como taxas de erro e latência.

Use o Prometheus e o Alertmanager:
+ Use o Prometheus para coleta de métricas e o PromQL para definir condições de alerta.
+ Use o Alertmanager para roteamento e desduplicação de alertas.

Integre com a Amazon CloudWatch:
+ Use o [CloudWatchContainer Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContainerInsights.html) para métricas específicas do Amazon EKS.
+ Configure [CloudWatchalarmes](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) para métricas críticas AWS de recursos.

Implemente alertas contextuais:
+ Inclua informações relevantes nas mensagens de alerta, como nome do cluster, namespace e detalhes do pod.
+ Forneça links para painéis ou runbooks relevantes em alertas.

Use a detecção de anomalias:
+ Implemente a detecção de anomalias baseada em aprendizado de máquina para padrões complexos.
+ Use serviços como detecção de CloudWatch anomalias ou ferramentas de terceiros.

Implemente a supressão e o silenciamento de alertas:
+ Permita a supressão temporária de problemas conhecidos.
+ Implemente janelas de manutenção para reduzir o ruído durante os períodos de inatividade planejados.

Monitore o desempenho do alerta:
+ Monitore métricas como frequência de alertas, tempo de resolução e taxas de falsos positivos.
+ Revise e refine regularmente as regras de alerta com base nessas métricas.

Implemente procedimentos de escalonamento:
+ Defina caminhos claros de escalonamento para alertas não resolvidos.
+ Use ferramentas como PagerDuty o Opsgenie para escalonamentos automatizados.

Teste os sistemas de alerta regularmente:
+ Realize testes periódicos do seu pipeline de alertas.
+ Inclua testes de alerta em exercícios de recuperação de desastres.

Use modelos para consistência de alertas:
+ Crie modelos de alerta padronizados para cenários comuns.
+ Garanta formatação e informações consistentes em todos os alertas.

Implemente a limitação de taxa:
+ Evite tempestades de alertas implementando a limitação de taxa em alertas acionados com frequência.

Use métricas personalizadas:
+ Implemente métricas personalizadas para monitoramento específico do aplicativo.
+ Use a API de métricas personalizadas do Kubernetes para escalonamento automático com base nessas métricas.

Implemente a integração de registro:
+ Correlacione alertas com registros relevantes para agilizar a solução de problemas.
+ Use ferramentas como o Grafana Loki ou o ELK Stack em conjunto com seu sistema de alerta.

Considere os alertas de custo:
+ Configure alertas para picos inesperados no uso ou nos custos dos recursos.
+ Use [AWS Budgets](https://docs.aws.amazon.com/cost-management/latest/userguide/budgets-managing-costs.html)nossas ferramentas de gerenciamento de custos de terceiros.

Use o rastreamento distribuído:
+ Integre ferramentas de rastreamento distribuídas, como Jaeger ou. [AWS X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html)
+ Configure alertas para padrões de rastreamento ou latências anormais.

Runbooks de alertas de documentos:
+ Crie runbooks claros e acionáveis para cada tipo de alerta.
+ Inclua etapas de solução de problemas e procedimentos de escalonamento nos runbooks.

Seguindo essas melhores práticas, você pode criar um sistema de alerta robusto, eficiente e eficaz para seu ambiente Amazon EKS. Isso ajudará a garantir alta disponibilidade, resolução rápida de problemas e desempenho ideal de seus aplicativos baseados em Kubernetes.