Remediação automática de alertas pelo AMS - Guia do usuário do AMS Accelerate

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Remediação automática de alertas pelo AMS

Após a verificação, o AWS Managed Services (AMS) corrige automaticamente determinados alertas de acordo com condições e processos específicos descritos nesta seção.

Nome do alerta Descrição Limites Ação

Falha ao verificar status

Possíveis falhas de hardware ou um estado de falha da instância.

O sistema detectou um status de falha pelo menos uma vez nos últimos 15 minutos.

A remediação automática do AMS primeiro valida se a instância está acessível. Se a instância estiver inacessível, ela será interrompida e reiniciada. O stop and start permite que a instância migre para um novo hardware subjacente. Para obter mais informações, consulte a seção a seguir "Automação de remediação de falhas na verificação de EC2 status”.

AMSLinuxDiskUsage

Acione quando o uso do disco de 1 ponto de montagem (espaço designado em um volume) na sua EC2 instância estiver sendo preenchido.

O limite está acima do valor definido 6 vezes nos últimos 30 minutos.

A remediação automática do AMS primeiro exclui os arquivos temporários. Se isso não liberar espaço em disco suficiente, ele estende o volume para evitar tempo de inatividade se o volume ficar cheio.

AMSWindowsDiskUsage

Quando o uso do disco de 1 ponto de montagem (espaço designado em um volume) na sua EC2 instância está se esgotando.

O limite está acima do valor definido 6 vezes nos últimos 30 minutos.

A remediação automática do AMS primeiro exclui os arquivos temporários. Se isso não liberar espaço em disco suficiente, ele estende o volume para evitar tempo de inatividade se o volume ficar cheio.

RDS-EVENT-0089

A instância de banco de dados consumiu mais de 90% do armazenamento alocado.

O armazenamento é mais de 90% alocado.

A remediação automática do AMS primeiro valida se o banco de dados está em um estado modificável e disponível ou com armazenamento cheio. Em seguida, ele tenta aumentar o armazenamento alocado, o IOPS e a taxa de transferência de armazenamento por meio de um conjunto de alterações. CloudFormation Se o desvio da pilha já for detectado, ele retornará à API do RDS para evitar o tempo de inatividade.

Esse recurso pode ser desativado adicionando a seguinte tag à instância de banco de dados do RDS: "Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

RDS-EVENT-0007

O armazenamento alocado para a instância de banco de dados foi esgotado. Para resolver, aloque armazenamento adicional.

O armazenamento é 100% alocado.

A remediação automática do AMS primeiro valida se o banco de dados está em um estado modificável e disponível ou com armazenamento cheio. Em seguida, ele tenta aumentar o armazenamento alocado, o IOPS e a taxa de transferência de armazenamento por meio de um conjunto de alterações. CloudFormation Se o desvio da pilha já for detectado, ele retornará à API do RDS para evitar o tempo de inatividade.

Esse recurso pode ser desativado adicionando a seguinte tag à instância de banco de dados do RDS: "Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

RDS-EVENT-0224

O armazenamento alocado solicitado atinge ou excede o limite máximo de armazenamento configurado.

O limite máximo de armazenamento para a instância de banco de dados foi esgotado ou é maior ou igual ao armazenamento alocado solicitado.

A remediação automática do AMS primeiro valida se a quantidade solicitada de armazenamento do RDS ultrapassará o limite máximo de armazenamento. Se confirmado, o AMS tenta aumentar o limite máximo de armazenamento em 30% com um CloudFormation conjunto de alterações ou uma API direta do RDS se os recursos não forem provisionados. CloudFormation

Esse recurso pode ser desativado adicionando a seguinte tag à instância de banco de dados do RDS: "Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

Capacidade de armazenamento RDS

Restam menos de 1 GB no armazenamento alocado para a instância de banco de dados.

O armazenamento é alocado em 99%.

A remediação automática do AMS primeiro valida se o banco de dados está em um estado modificável e disponível ou com armazenamento cheio. Em seguida, ele tenta aumentar o armazenamento alocado, o IOPS e a taxa de transferência de armazenamento por meio de um conjunto de alterações. CloudFormation Se o desvio da pilha já for detectado, ele retornará à API do RDS para evitar o tempo de inatividade.

Esse recurso pode ser desativado adicionando a seguinte tag à instância de banco de dados do RDS: "Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

EC2 falha na verificação de status: notas de automação de remediação

Como a remediação automática do AMS funciona com problemas de falha na verificação de EC2 status:

  • Se sua EC2 instância da Amazon estiver inacessível, ela deverá ser interrompida e iniciada novamente para que possa ser migrada para um novo hardware e recuperada.

  • Se a raiz do problema estiver no sistema operacional (dispositivos ausentes no fstab, corrupção do kernel etc.), a automação não conseguirá recuperar sua instância.

  • Se sua instância pertencer a um grupo de Auto Scaling, a automação não tomará nenhuma ação — a ação de AutoScalingGroup escalabilidade substitui a instância.

  • Se sua instância tiver a recuperação EC2 automática ativada, a correção não será executada.

EC2 automação de remediação de uso de volume

Como a remediação automática do AWS Managed Services (AMS) funciona com problemas de uso EC2 de volume:

  • A automação primeiro valida se a expansão do volume é necessária e se ela pode ser executada. Se a expansão for considerada apropriada, a automação pode aumentar a capacidade do volume. Esse processo automatizado equilibra a necessidade de crescimento com uma expansão controlada e limitada.

  • Antes de estender um volume, a automação executa tarefas de limpeza (Windows: Disk Cleaner, Linux: Logrotate + Simple Service Manager Agent Log, remoção do log) na instância para tentar liberar espaço.

    nota

    As tarefas de limpeza não são executadas em instâncias da família EC2 “T” devido à dependência de créditos de CPU para funcionalidade contínua.

  • No Linux, a automação só suporta a extensão de sistemas de arquivos do tipo EXT2 EXT3, EXT4 e XFS.

  • No Windows, a automação só oferece suporte ao New Technology File System (NTFS) e ao Resilient File System (ReFS).

  • A automação não estende os volumes que fazem parte do Logical Volume Manager (LVM) ou de uma matriz RAID.

  • A automação não amplia os volumes de armazenamento de instâncias.

  • A automação não age se o volume afetado já for maior que 2 TiB.

  • A expansão por meio da automação é limitada a um máximo de três vezes por semana e cinco vezes no total durante a vida útil do sistema.

  • A automação não expande o volume se a expansão anterior ocorreu nas últimas seis horas.

Quando essas regras impedem a automação de agir, o AMS entra em contato com você por meio de uma solicitação de serviço de saída para determinar as próximas ações a serem tomadas.

Automação de remediação de eventos de baixo armazenamento do Amazon RDS

Como a remediação automática do AWS Managed Services (AMS) funciona com problemas de eventos de baixo armazenamento do Amazon RDS:

  • Antes de tentar estender o armazenamento da instância do Amazon RDS, a automação executa várias verificações para garantir que a instância do Amazon RDS esteja em um estado modificável e disponível, ou com armazenamento cheio.

  • Quando o desvio da CloudFormation pilha é detectado, a remediação ocorre por meio da API do Amazon RDS.

  • A ação de remediação não é executada nos seguintes cenários:

    • O status da instância do Amazon RDS não é “disponível” ou “com armazenamento cheio”.

    • O armazenamento da instância do Amazon RDS não é modificável no momento (como quando o armazenamento foi modificado nas últimas seis horas).

    • A instância do Amazon RDS tem armazenamento com escalabilidade automática habilitado.

    • A instância do Amazon RDS não é um recurso dentro de uma CloudFormation pilha.

  • A remediação é limitada a uma expansão por seis horas e não mais do que três expansões em um período contínuo de quatorze dias.

  • Quando esses cenários ocorrem, o AMS entra em contato com você com um incidente de saída para determinar as próximas ações.