Alertas do monitoramento de linha de base no AMS - Guia do usuário avançado do AMS

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Alertas do monitoramento de linha de base no AMS

Saiba mais sobre os padrões de monitoramento do AMS. Para obter mais informações, consulte Monitoramento e gerenciamento de eventos no AMS.

A tabela a seguir mostra o que é monitorado e os limites de alerta padrão. Você pode alterar os limites de alerta com uma RFC Management | Other | Other | Update (ct-0xdawir96cy7k) depois de determinar quais alterações você deseja e assinar o tópico relevante do Amazon SNS. CloudWatch Para obter informações sobre como criar e assinar tópicos, consulte Inscrever-se em um tópico. Para obter informações gerais, consulte Amazon SNS FAQs. Para ser notificado diretamente quando os alarmes ultrapassarem seu limite, além do processo de alerta padrão do AMS, siga estas instruções sobre como substituir as configurações de alarme,. Recebendo alertas gerados pelo AMS

A Amazon CloudWatch fornece retenção estendida de métricas. Para obter mais informações, consulte CloudWatch Limites.

nota

O AMS calibra seu monitoramento de linha de base periodicamente. Novas contas são sempre integradas com o monitoramento de linha de base mais recente e a tabela descreve o monitoramento básico de uma conta recém-integrada. O AMS atualiza o monitoramento básico das contas existentes periodicamente e você pode enfrentar um intervalo de tempo antes que as atualizações sejam implementadas. Para obter mais informações, consulte Visualizando a configuração de monitoramento de uma conta AMS.

Alertas do monitoramento de linha de base

Serviço

Alerta de segurança

Nome do alerta e condição do gatilho

Observações

Para alertas com estrela (*), o AMS avalia proativamente o impacto e corrige quando possível; se a remediação não for possível, o AMS cria um incidente. Quando a automação falha em corrigir o problema, o AMS informa você sobre o caso do incidente e um engenheiro do AMS é contratado. Além disso, esses alertas podem ser enviados diretamente para seu e-mail (se você tiver optado pelo tópico Direct-Customer-Alerts SNS).

Instância do Application Load Balancer (ALB)

Não

RejectedConnectionCount

soma > 0 por 1 min, 5 vezes consecutivas.

CloudWatch alarme se o número de conexões que foram rejeitadas porque o balanceador de carga atingiu seu máximo.

Destino do Application Load Balancer (ALB)

Não

TargetConnectionErrorCount

soma > 0 por 1 min, 5 vezes consecutivas.

CloudWatch alarme se o número de conexões foi estabelecido sem sucesso entre o balanceador de carga e as instâncias registradas.

EC2 Instância da Amazon — Windows

Não

SecureChannelFailure

> 0,0 para 10 dos últimos 15 pontos de dados.

CloudWatch alarme em instâncias do Windows para alertar quando a conexão Secure a Channel falhar.

Instância do Aurora

Não

CPUUtilization

> 85% por 5 minutos, 2 vezes consecutivas.

CloudWatch alarme.

AWS Backup

Sim

DeleteRecoveryPoint

Um principal de função do IAM inesperado ou um principal de usuário do IAM excluiu um ponto AWS Backup de recuperação.

CloudWatch evento. Emitido quando um ponto de recuperação de backup é excluído.

AWS Outposts

Sim

AMSOutpostsInstanceFamilyCapacityAvailability InstanceFamilyCapacityAvailability

= 80% por 5 minutos, 12 vezes consecutivas.

CloudWatch alarme sobre a disponibilidade da capacidade familiar de instâncias do AWS Outposts recurso.

AMSOutpostsInstanceTypeCapacityAvailability TypeCapacityAvailability

= 80% por 5 minutos, 12 vezes consecutivas.

CloudWatch alarme sobre a disponibilidade da capacidade do tipo de instância do AWS Outposts recurso.

AMSOutpostsConnectedStatusConnectedStatus

< 1 por 5 minutos, 1 vez consecutiva.

CloudWatch alarme na conexão do link de AWS Outposts serviço, menos de 1 contagem está prejudicada.

AMSOutpostsCapacityExceptionCapacityExceptions

0 por 5 minutos, 1 vez consecutiva.

CloudWatch alarme sobre erros de capacidade insuficiente, por exemplo, lançamentos AWS Outposts de um recurso

.

EC2 instância - tudo OSs

Não

CPUUtilization*

>= 95% por 5 minutos, 6 vezes consecutivas.

CloudWatch alarme. A alta utilização da CPU é um indicador de uma mudança no estado do aplicativo, como bloqueios sem saída, loops infinitos, ataques maliciosos e outras anomalias.

StatusCheckFailed

> 0 por 5 minutos, 3 vezes consecutivas.

CloudWatch alarme.

Uso do volume raiz

>= 95% por 5 minutos, 6 vezes consecutivas.

Uso do volume não raiz

> 85% por 5 minutos, 2 vezes consecutivas.

Desativado por padrão; para obter informações adicionais, consulte https://docs.aws.amazon.com/managedservices/latest/ctref/management-monitoring-cloudwatch-enable-non-root-volumes-monitoring.html#management-monitoring-cloudwatch-enable-non-root-volumes-monitoring-info.

Sem memória*

MemoryFree < 5% por 5 minutos, 6 vezes consecutivas.

Sim

Malware EPS

Malware encontrado na instância.

CloudWatch evento.

EC2 Instância da Amazon - Linux

Não

Uso do Inode do Volume Raiz

Média >= 95% por 5 minutos, 6 vezes consecutivas.

CloudWatch alarme. Aplicado somente às instâncias do Linux.

Grátis para troca*

Troca de memória < 5% por 5 minutos, 6 vezes consecutivas.

ElastiCache Cluster

Não

CurrConnections = 65000

Esse alarme notifica o AMS do limite máximo de conexão de um ElastiCache Host.

CloudWatch Alarme. Se você quiser atualizar esse limite, entre em contato com o suporte do AMS.

ElastiCache Nodo

Não

CPUUtilization

Média > valor predefinido por 15 minutos, 2 vezes consecutivas.

CloudWatch alarme. O padrão é 90. Se for Redis, use um dos seguintes valores com base no tipo de instância:

  • cache.t1.micro: 90%

  • cache.m1.small: 90%

  • cache.m1.medium: 90%

  • cache.m1.large: 45%

  • cache.m1.xlarge: 22,5%

  • cache.m2.xlarge: 45%

  • cache.m2.4xlarge: 11,25%

  • cache.c1.xlarge: 11,25%

  • cache.t2.micro: 90%

  • cache.t2.small: 90%

  • cache.t2.medium: 45%

  • cache.m3.medium: 90%

  • cache.m3.large: 45%

  • cache.m3.xlarge: 22,5%

  • cache.m3.2xlarge: 11,25%

  • cache.r3.large: 45%

  • cache.r3.xlarge: 22,5%

  • cache.r3.2xlarge: 11,25%

  • cache.r3.4xlarge: 5,625%

  • cache.r3.8xlarge: 2,8125%

ElastiCache Node - memcached

Não

SwapUsage

máximo > 50.000.000 bytes por 5 minutos, 5 vezes consecutivas.

CloudWatch alarme. Aplicado somente ao memcached.

OpenSearch agrupamento

Não

ClusterStatus.red

o máximo é >= 1 por 1 minuto, 1 vez consecutiva.

O AMS toma medidas proativas para reduzir o impacto operacional quando esse alerta é acionado.

CloudWatch alarme. Pelo menos um fragmento principal e suas réplicas não estão alocados para um nó. Para saber mais, consulte Red Cluster Status.

OpenSearch Domínio

Não

KMSKeyErro

>= 1 por 1 minuto, 1 vez consecutiva.

CloudWatch alarme. A chave de criptografia do KMS que é usada para criptografar dados em repouso no seu domínio está desativada. Reative-a para restaurar as operações normais. Para saber mais, consulte Criptografia de dados em repouso para o OpenSearch Service Service.

ClusterStatus.amarelo

máximo é >= 1 por 1 minuto, 1 vez consecutiva

O AMS toma medidas proativas para reduzir o impacto operacional quando esse alerta é acionado.

Pelo menos um fragmento de réplica não está alocado para um nó. Para saber mais, consulte Yellow Cluster Status.

FreeStorageSpace

o mínimo é <= 20480 por 1 minuto, 1 vez consecutiva

O AMS toma medidas proativas para reduzir o impacto operacional quando esse alerta é acionado.

Um nó no seu cluster tem 20 GiB de espaço de armazenamento livre. Para saber mais, consulte Falta de espaço de armazenamento disponível.

ClusterIndexWritesBlocked

>= 1 por 5 minutos, 1 vez consecutiva

O AMS toma medidas proativas para reduzir o impacto operacional quando esse alerta é acionado.

O cluster está bloqueando as solicitações de gravação. Para saber mais, consulte ClusterBlockException.

Nós

mínimo é < x por 1 dia, 1 vez consecutiva

O AMS toma medidas proativas para reduzir o impacto operacional quando esse alerta é acionado.

x é o número de nós em seu cluster. Esse alarme indica que pelo menos um nó no cluster permaneceu inacessível por um dia. Para saber mais, consulte Failed Cluster Nodes.

CPUUtilization

a média é >= 80% por 15 minutos, 3 vezes consecutivas

O AMS toma medidas proativas para reduzir o impacto operacional quando esse alerta é acionado.

A utilização de 100% da CPU é comum, mas altas médias sustentadas são problemáticas. Considere o uso de tipos de instância maiores ou a adição de instâncias.

JVMMemoryPressão

o máximo é >= 80% por 5 minutos, 3 vezes consecutivas

O AMS toma medidas proativas para reduzir o impacto operacional quando esse alerta é acionado.

O cluster poderá apresentar erros de memória insuficiente se o uso aumentar. Considere a escalabilidade vertical. O Amazon ES usa metade da RAM de uma instância para o heap Java, até um tamanho de heap de 32 GiB. Você pode dimensionar instâncias verticalmente até 64 GiB de RAM, sendo que nesse ponto você poderá dimensionar horizontalmente adicionando instâncias.

Mestre CPUUtilization

a média é >= 50% por 15 minutos, 3 vezes consecutivas

O AMS toma medidas proativas para reduzir o impacto operacional quando esse alerta é acionado.

Considere usar tipos de instância maiores para seus nós principais dedicados. Devido à sua função na estabilidade e nas blue/green implantações do cluster, os nós mestres dedicados devem ter uma média de uso de CPU menor do que os nós de dados.

JVMMemoryPressão principal

o máximo é >= 80% por 15 minutos, 1 vez consecutiva

O AMS toma medidas proativas para reduzir o impacto operacional quando esse alerta é acionado.

Considere usar tipos de instância maiores para seus nós principais dedicados. Devido à sua função na estabilidade e nas blue/green implantações do cluster, os nós mestres dedicados devem ter uma média de uso de CPU menor do que os nós de dados.

OpenSearch instância

Não

AutomatedSnapshotFailure

o máximo é >= 1 por 1 minuto, 1 vez consecutiva.

CloudWatch alarme. Ocorreu falha em um snapshot automatizado. Essa falha normalmente é o resultado de um status de integridade vermelho do cluster. Consulte o status do cluster vermelho.

Instância do Elastic Load Balancing

Não

SurgeQueueLength

> 100 por 1 minuto, 15 vezes consecutivas.

CloudWatch alarme se um número excessivo de solicitações estiver pendente de roteamento.

HTTPCode_ELB_5xx_Contagem

soma > 0 por 5 min, 3 vezes consecutivas.

CloudWatch alarme sobre o número excessivo de códigos de resposta HTTP 5XX que se originam do balanceador de carga.

SpilloverCount

> 1 por 1 minuto, 15 vezes consecutivas.

CloudWatch alarme se houver um número excessivo de solicitações rejeitadas porque a fila de sobrecarga está cheia.

GuardDuty serviço

Sim

Não aplicável; todas as descobertas (propósitos de ameaça) são monitoradas. Cada descoberta corresponde a um alerta.

Mudanças nas GuardDuty descobertas. Essas alterações incluem descobertas recém-geradas ou as ocorrências subsequentes das descobertas existentes.

A lista dos tipos de GuardDuty descoberta compatíveis está em Tipos de descoberta GuardDuty ativos.

Saúde

Varia

AWS Health Dashboard

As notificações são enviadas quando há alterações no status dos eventos AWS Health Dashboard (AWS Health) em relação aos serviços básicos suportados pelo AMS. Para obter mais informações, consulte Serviços compatíveis.

AWS Managed Microsoft AD

Não

Status do Active Directory

AWS Managed Microsoft AD instance envia um evento de status ativo.

Evento de serviço. Emitido quando o diretório está operando normalmente após um evento.

Status do diretório prejudicado

AWS Managed Microsoft AD instance envia um evento de status de diretório danificado.

Evento de serviço. Emitido quando o diretório está sendo executado em um estado degradado. Um ou mais problemas foram detectados, e talvez algumas operações do diretório não estejam funcionando com capacidade operacional total.

Status do diretório inoperável

AWS Managed Microsoft AD instance envia um evento de status inoperável.

Evento de serviço. Emitido quando o diretório não está funcionando. Todos os endpoints do diretório relataram problemas.

Excluindo o status do diretório

AWS Managed Microsoft AD instance envia um evento de exclusão do status do diretório.

Evento de serviço. Emitido quando o diretório está sendo excluído no momento.

Status do diretório com falha

AWS Managed Microsoft AD a instância envia um evento de status com falha.

Evento de serviço. Emitido quando o diretório não pôde ser criado.

RestoreFailed Status do diretório

AWS Managed Microsoft AD a instância envia um evento de status do diretório com falha na restauração.

Evento de serviço. Emitido ao restaurar o diretório a partir de um instantâneo falhou.

Instância do Amazon RDS

Não

O alerta de baixo armazenamento é acionado quando o armazenamento alocado para a instância de banco de dados se esgota.

RDS-EVENT-0007, veja detalhes em Usando a notificação de eventos do Amazon RDS.

falha na instância de banco de dados

Houve falha na instância de banco de dados devido a uma configuração incompatível ou a um problema do armazenamento subjacente. Comece a point-in-time-restore para a instância de banco de dados.

Evento de serviço. RDS-EVENT-0031, categorias de eventos e mensagens de eventos do Amazon RDS.

Failover não foi tentado

O Amazon RDS não está tentando um failover solicitado porque ocorreu um failover recentemente na instância de banco de dados.

Evento de serviço. RDS-EVENT-0034, categorias de eventos e mensagens de eventos do Amazon RDS.

Parâmetros inválidos da instância de banco de dados

Por exemplo, o MySQL não pôde ser iniciado porque um parâmetro relacionado à memória está definido como alto demais para essa classe de instância, então a ação do cliente seria modificar o parâmetro de memória e reinicializar a instância de banco de dados.

Evento de serviço. RDS-EVENT-0035, categorias de eventos e mensagens de eventos do Amazon RDS.

Instância de banco de dados de sub-rede IDs inválida

A instância de banco de dados está em uma rede incompatível. Algumas das sub-redes especificadas IDs são inválidas ou não existem.

Evento de serviço. RDS-EVENT-0036, Categorias de eventos e mensagens de eventos do Amazon RDS.

Erro de réplica de leitura da instância de banco de dados

Ocorreu um erro no processo de replicação de leitura. Para ter mais informações, consulte a mensagem do evento. Para obter informações sobre como solucionar erros de réplica de leitura, consulte Solução de problemas de réplica de leitura do MySQL.

Evento de serviço. RDS-EVENT-0045, categorias de eventos e mensagens de eventos do Amazon RDS.

A replicação de leitura da instância de banco de dados terminou

A replicação na réplica de leitura foi encerrada.

Evento de serviço. RDS-EVENT-0057, categorias de eventos e mensagens de eventos do Amazon RDS.

Erro ao criar conta de usuário do statspack

Erro ao criar a conta de usuário do Statspack PERFSTAT. Descarte a conta antes de adicionar a opção Statspack.

Evento de serviço. RDS-EVENT-0058, categorias de eventos e mensagens de eventos do Amazon RDS.

Início da recuperação da instância de banco de dados

A instância de banco de dados do SQL Server está restabelecendo seu espelho. O performance será degradado até o espelho ser restabelecido. Um banco de dados foi encontrado com o modelo de recuperação não FULL. O modelo de recuperação foi alterado novamente para FULL e a recuperação por espelhamento foi iniciada. (<dbname>: <recovery model found>[,...]).

Evento de serviço. RDS-EVENT-0066, categorias de eventos e mensagens de eventos do Amazon RDS.

Um failover para o cluster de banco de dados falhou.

RDS-EVENT-0069, veja detalhes em Categorias de eventos e mensagens de eventos do Amazon RDS.

Bucket S3 de recuperação de permissões inválidas

O perfil do IAM que você usa para acessar seu bucket do Amazon S3 para backup e restauração nativos do SQL Server está configurado incorretamente. Para obter mais informações, consulte Configurando o Backup e a Restauração Nativos.

Evento de serviço. RDS-EVENT-0081, categorias de eventos e mensagens de eventos do Amazon RDS.

O Aurora não pôde copiar dados de backup de um bucket do Amazon S3.

RDS-EVENT-0082, veja detalhes em Categorias de eventos e mensagens de eventos do Amazon RDS.

Alerta de baixo armazenamento quando a instância de banco de dados consumiu mais de 90% do armazenamento alocado

RDS-EVENT-0089, veja detalhes em Categorias de eventos e mensagens de eventos do Amazon RDS.

Serviço de notificação quando o escalonamento falhou para o cluster de banco de dados Aurora Serverless.

RDS-EVENT-0143, veja detalhes em Categorias de eventos e mensagens de eventos do Amazon RDS.

A instância de banco de dados está em estado inválido. Nenhuma ação é necessária. A escalabilidade automática tentará novamente mais tarde.

RDS-EVENT-0219, veja detalhes em Categorias de eventos e mensagens de eventos do Amazon RDS.

A instância de banco de dados atingiu o limite total de armazenamento e o banco de dados foi encerrado.

RDS-EVENT-0221, veja detalhes em Categorias de eventos e mensagens de eventos do Amazon RDS.

Esse evento indica que o escalonamento automático do armazenamento da instância do RDS não pode ser escalado. Pode haver vários motivos pelos quais o escalonamento automático falhou.

RDS-EVENT-0223, veja detalhes em Categorias de eventos e mensagens de eventos do Amazon RDS.

A escalabilidade automática do armazenamento acionou uma tarefa de armazenamento de escala pendente que atingiu o limite máximo de armazenamento.

RDS-EVENT-0224, veja detalhes em Categorias de eventos e mensagens de eventos do Amazon RDS.

A instância de banco de dados tem um tipo de armazenamento que no momento está indisponível na zona de disponibilidade. A escalabilidade automática tentará novamente mais tarde.

RDS-EVENT-0237, veja detalhes em Categorias de eventos e mensagens de eventos do Amazon RDS.

O RDS não conseguiu provisionar capacidade para o proxy porque não há endereços IP suficientes disponíveis em suas sub-redes.

RDS-EVENT-0243, veja detalhes em Categorias de eventos e mensagens de eventos do Amazon RDS.

O armazenamento da sua conta da AWS excedeu a cota de armazenamento permitida.

RDS-EVENT-0254, veja detalhes em Categorias de eventos e mensagens de eventos do Amazon RDS.

CPUUtilization

Utilização média da CPU > 90% por 15 minutos, 2 vezes consecutivas.

CloudWatch alarme.

DiskQueueDepth

A soma é > 75 por 1 minuto, 15 vezes consecutivas.

FreeStorageSpace

Média < 1.073.741.824 bytes por 5 minutos, 2 vezes consecutivas.

SwapUsage

Média >= 104.857.600 bytes por 5 minutos, 2 vezes consecutivas.

Cluster do Amazon Redshift

Não

RedshiftClusterStatus

A integridade do cluster quando não está no modo de manutenção < 1 por 5 min.

1 representa um cluster saudável.

Amazon Macie

Sim

Alertas recém-gerados e atualizações de alertas existentes.

Macie encontra alguma mudança nas descobertas. Essas alterações incluem descobertas recém-geradas ou as ocorrências subsequentes das descobertas existentes.

Alerta do Amazon Macie. Para obter uma lista dos tipos de alerta do Macie compatíveis, consulte Analisando as descobertas do Amazon Macie. Observe que o Macie não está habilitado para todas as contas.

O AMS realiza ações proativas (escalando o cluster) quando esse alerta é acionado.

Para obter informações sobre os esforços de remediação, consulteRemediação automática de alertas pelo AMS.