View a markdown version of this page

Remediação automática de alertas pelo AMS - Guia do usuário avançado do AMS

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Remediação automática de alertas pelo AMS

Após a verificação, o AWS Managed Services (AMS) corrige automaticamente determinados alertas de acordo com condições e processos específicos descritos nesta seção.

Nome do alerta Description Limites Ação

Canal seguro quebrado

O alarme Broken Secure Channel é acionado nas instâncias do Windows EC2 quando a instância perde a conexão com o controlador de domínio AD.

O limite está acima do valor definido 10 vezes nos últimos 15 minutos.

A correção automática do AMS valida se a instância está on-line no SSM, o nome do host não está duplicado e se o objeto de computador do AD está alinhado com a pilha. CloudFormation A correção repara a conexão segura do canal para restaurar o acesso à instância.

Falha na verificação de status

Possíveis falhas de hardware ou um estado de falha da instância.

O sistema detectou um status de falha pelo menos uma vez nos últimos 15 minutos.

A remediação automática do AMS primeiro valida se a instância está acessível. Se a instância estiver inacessível, ela será interrompida e reiniciada. O stop and start permite que a instância migre para um novo hardware subjacente. Para obter mais informações, consulte a seção a seguir “Automação de remediação de falhas na verificação de status do EC2”.

AMSLinuxDiskUsage

Acione quando o uso do disco de 1 ponto de montagem (espaço designado em um volume) em sua instância do EC2 estiver sendo preenchido.

O limite está acima do valor definido 6 vezes nos últimos 30 minutos.

A remediação automática do AMS primeiro exclui os arquivos temporários. Se isso não liberar espaço em disco suficiente, ele estende o volume para evitar tempo de inatividade se o volume ficar cheio.

AMSWindowsDiskUsage

Quando o uso do disco de 1 ponto de montagem (espaço designado em um volume) em sua instância do EC2 está se esgotando.

O limite está acima do valor definido 6 vezes nos últimos 30 minutos.

A remediação automática do AMS primeiro exclui os arquivos temporários. Se isso não liberar espaço em disco suficiente, ele estende o volume para evitar tempo de inatividade se o volume ficar cheio.

RDS-EVENT-0089

A instância de banco de dados consumiu mais de 90% do armazenamento alocado.

O armazenamento é mais de 90% alocado.

A remediação automática do AMS primeiro valida se o banco de dados está em um estado modificável e disponível ou com armazenamento cheio. Em seguida, ele tenta aumentar o armazenamento alocado, o IOPS e a taxa de transferência de armazenamento por meio de um conjunto de alterações. CloudFormation Se o desvio da pilha já for detectado, ele retornará à API do RDS para evitar o tempo de inatividade.

Esse recurso pode ser desativado adicionando a seguinte tag à instância de banco de dados do RDS: "Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

RDS-EVENT-0007

O armazenamento alocado para a instância de banco de dados foi esgotado. Para resolver, aloque armazenamento adicional.

O armazenamento é 100% alocado.

A remediação automática do AMS primeiro valida se o banco de dados está em um estado modificável e disponível ou com armazenamento cheio. Em seguida, ele tenta aumentar o armazenamento alocado, o IOPS e a taxa de transferência de armazenamento por meio de um conjunto de alterações. CloudFormation Se o desvio da pilha já for detectado, ele retornará à API do RDS para evitar o tempo de inatividade.

Esse recurso pode ser desativado adicionando a seguinte tag à instância de banco de dados do RDS: "Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

RDS-EVENT-0224

O armazenamento alocado solicitado atinge ou excede o limite máximo de armazenamento configurado.

O limite máximo de armazenamento para a instância de banco de dados foi esgotado ou é maior ou igual ao armazenamento alocado solicitado.

A remediação automática do AMS primeiro valida se a quantidade solicitada de armazenamento do RDS ultrapassará o limite máximo de armazenamento. Se confirmado, o AMS tentará aumentar o limite máximo de armazenamento em 30% com um CloudFormation conjunto de alterações ou uma API direta do RDS se os recursos não forem provisionados. CloudFormation

Esse recurso pode ser desativado adicionando a seguinte tag à instância de banco de dados do RDS: "Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

Capacidade de armazenamento RDS

Restam menos de 1 GB no armazenamento alocado para a instância de banco de dados.

O armazenamento é alocado em 99%.

A remediação automática do AMS primeiro valida se o banco de dados está em um estado modificável e disponível ou com armazenamento cheio. Em seguida, ele tenta aumentar o armazenamento alocado, o IOPS e a taxa de transferência de armazenamento por meio de um conjunto de alterações. CloudFormation Se o desvio da pilha já for detectado, ele retornará à API do RDS para evitar o tempo de inatividade.

Esse recurso pode ser desativado adicionando a seguinte tag à instância de banco de dados do RDS: "Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

AMSFSXONTAPVolumeCapacityUtilization

O volume do Amazon FSx for NetApp ONTAP consumiu mais do que o armazenamento alocado padrão (80%).

FSx para ONTAP, a utilização da capacidade de volume é superior a 80% por duas horas (valor padrão).

A remediação automática do AMS primeiro valida se o estado do ciclo de vida do volume está em um estado modificável e, em seguida, amplia o tamanho do volume em 10% enquanto verifica a capacidade máxima do sistema de arquivos. Se o sistema de arquivos não tiver capacidade de armazenamento suficiente para a expansão do volume, tanto o volume quanto o sistema de arquivos serão expandidos juntos. Essa expansão é limitada a um máximo de três vezes em qualquer período de sete dias. O limite máximo de armazenamento para o qual o AMS Automation se expande é 5120 GiB.

nota

Se o LUN iSCSI estiver configurado na parte superior do volume, expanda o LUN iSCSI no nível do sistema operacional. Para obter mais informações, consulte Por que meu LUN FSx para ONTAP está no modo somente leitura?

Amazon EC2 Broken Secure Channel: nota de automação de remediação

Antes que a remediação automática do AWS Managed Services (AMS) realize a correção dos problemas do Windows Broken Secure Channel do Amazon EC2, a automação realiza as seguintes verificações prévias e cria um relatório de incidentes para investigação adicional:

  • Valida se o status SSM da instância do Amazon EC2 é “Online”.

  • Valida se a instância do Amazon EC2 faz parte de um grupo de Auto Scaling e se todas as instâncias no grupo Auto Scaling têm o mesmo nome de host.

  • Verifica se a instância do Amazon EC2 faz parte da CloudFormation pilha usada para provisioná-la. Se a instância tiver sido removida da CloudFormation pilha, a automação verifica se a Unidade Organizacional (OU) do Active Directory associada ainda está fazendo referência à pilha.

Depois que as validações acima forem aprovadas, a automação prossegue para corrigir o canal Broken Secure.

Etapas de remediação:

  • A remediação automática tenta reparar o canal seguro entre a instância do EC2 e o domínio AD, restaurando o acesso à instância.

  • Após a remediação, a automação verifica se o canal seguro foi estabelecido. Se não for bem-sucedido, o AMS cria um incidente e envolve as operações do AMS para investigar.

Falha na verificação de status do EC2: notas de automação de remediação

Como a remediação automática do AMS funciona com problemas de falha na verificação de status do EC2:

  • Se sua instância do Amazon EC2 estiver inacessível, a instância deverá ser interrompida e iniciada novamente para que possa ser migrada para um novo hardware e recuperada.

  • Se a raiz do problema estiver no sistema operacional (dispositivos ausentes no fstab, corrupção do kernel etc.), a automação não conseguirá recuperar sua instância.

  • Se sua instância pertencer a um grupo de Auto Scaling, a automação não tomará nenhuma ação — a ação de AutoScalingGroup escalabilidade substitui a instância.

  • Se sua instância tiver o EC2 Auto Recovery ativado, a correção não será executada.

Automação de remediação de uso de volume do EC2

Como a remediação automática do AWS Managed Services (AMS) funciona com problemas de uso de volume do EC2:

  • A automação primeiro valida se a expansão do volume é necessária e se ela pode ser executada. Se a expansão for considerada apropriada, a automação pode aumentar a capacidade do volume. Esse processo automatizado equilibra a necessidade de crescimento com uma expansão controlada e limitada.

  • Antes de estender um volume, a automação executa tarefas de limpeza (Windows: Disk Cleaner, Linux: Logrotate + Simple Service Manager Agent Log, remoção do log) na instância para tentar liberar espaço.

    nota

    As tarefas de limpeza não são executadas em instâncias da família “T” do EC2 devido à dependência de créditos de CPU para funcionalidade contínua.

  • No Linux, a automação suporta apenas a extensão de sistemas de arquivos do tipo EXT2 EXT3, EXT4 e XFS.

  • No Windows, a automação só oferece suporte ao New Technology File System (NTFS) e ao Resilient File System (ReFS).

  • A automação não estende os volumes que fazem parte do Logical Volume Manager (LVM) ou de uma matriz RAID.

  • A automação não amplia os volumes de armazenamento de instâncias.

  • A automação não age se o volume afetado já for maior que 2 TiB.

  • A expansão por meio da automação é limitada a um máximo de três vezes por semana e cinco vezes no total durante a vida útil do sistema.

  • A automação não expande o volume se a expansão anterior ocorreu nas últimas seis horas.

Quando essas regras impedem a automação de agir, o AMS entra em contato com você por meio de uma solicitação de serviço de saída para determinar as próximas ações a serem tomadas.

Automação de remediação de eventos de baixo armazenamento do Amazon RDS

Como a remediação automática do AWS Managed Services (AMS) funciona com problemas de eventos de baixo armazenamento do Amazon RDS:

  • Antes de tentar estender o armazenamento da instância do Amazon RDS, a automação executa várias verificações para garantir que a instância do Amazon RDS esteja em um estado modificável e disponível, ou com armazenamento cheio.

  • Quando o desvio da CloudFormation pilha é detectado, a remediação ocorre por meio da API do Amazon RDS.

  • Dependendo do evento desencadeador, a remediação modifica as propriedadesMaxAllocatedStorage,,, AllocatedStorage ou. Iops StorageThroughput Outras propriedades da instância do Amazon RDS não são modificadas. Para obter mais informações, consulte Configurações para instâncias de banco de dados.

  • A ação de remediação não é executada nos seguintes cenários:

    • O status da instância do Amazon RDS não é “disponível” ou “com armazenamento cheio”.

    • O armazenamento da instância do Amazon RDS não é modificável no momento (como quando o armazenamento foi modificado nas últimas seis horas).

    • A instância do Amazon RDS tem armazenamento com escalabilidade automática habilitado.

  • A remediação é limitada a uma expansão por seis horas e não mais do que três expansões em um período contínuo de quatorze dias.

  • Quando esses cenários ocorrem, o AMS entra em contato com você com um incidente de saída para determinar as próximas ações.

Automação de remediação de capacidade de volume ONTAP

Como a remediação automática do AWS Managed Services (AMS) funciona com problemas de capacidade de volume do ONTAP:

  • Antes de estender o volume, a automação valida se o estado do ciclo de vida do volume está em um estado modificável.

  • A automação amplia o tamanho do volume em 10% enquanto verifica a capacidade máxima do sistema de arquivos.

  • Se o sistema de arquivos não tiver capacidade de armazenamento suficiente para acomodar a expansão do volume, tanto o volume quanto a capacidade do sistema de arquivos serão expandidos.

  • A remediação é limitada a no máximo três atualizações em um período de sete dias.

  • O limite máximo de armazenamento para o qual o AMS Automation se expande é 5120 GiB.

  • Se o LUN iSCSI estiver configurado na parte superior do volume, você deverá expandir manualmente o LUN iSCSI no nível do sistema operacional após a conclusão da correção automática. Para obter mais informações, consulte Por que meu LUN FSx para ONTAP está no modo somente leitura?