Alertas del monitoreo de referencia en AMS - Guía de usuario avanzada de AMS

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Alertas del monitoreo de referencia en AMS

Obtenga información sobre los valores predeterminados de supervisión de AMS. Para obtener más información, consulte Supervisión y gestión de eventos en AMS.

La siguiente tabla muestra lo que se monitorea y los umbrales de alerta predeterminados. Puede cambiar los umbrales de alerta con una RFC de administración | Otros | Otros | Actualización (ct-0xdawir96cy7k) tras determinar los cambios que desea realizar y suscribirse al tema de Amazon SNS correspondiente. CloudWatch Para obtener información sobre la creación de temas y la suscripción a ellos, consulte Suscribirse a un tema. Para obtener información general, consulte Amazon SNS FAQs. Para recibir una notificación directa cuando las alarmas superen su umbral, además del proceso de alerta estándar de AMS, siga estas instrucciones sobre cómo sobrescribir las configuraciones de alarma. Recepción de alertas generadas por AMS

Amazon CloudWatch ofrece una mayor retención de las métricas. Para obtener más información, consulte CloudWatch Límites.

nota

AMS calibra su monitorización de referencia de forma periódica. Las cuentas nuevas siempre se incorporan con la supervisión de referencia más reciente y en la tabla se describe la supervisión de referencia de las cuentas recién incorporadas. AMS actualiza la supervisión básica de las cuentas existentes de forma periódica y es posible que se produzca un intervalo de tiempo antes de que se apliquen las actualizaciones. Para obtener más información, consulte Visualización de la configuración de supervisión de una cuenta AMS.

nota

La alerta de EC2 instancia Non-root volume usage está DESACTIVADA de forma predeterminada. Si necesita generar alertas basadas en esta alarma, debe habilitarla mediante el tipo de cambio de RFC ct-0erkoad6uyvvg

Alertas del monitoreo de referencia

Servicio

Alerta de seguridad

Nombre de la alerta y condición de activación

Notas

En el caso de las alertas destacadas (*), AMS evalúa el impacto de forma proactiva y las corrige cuando es posible; si no es posible remediarlas, AMS crea un incidente. Si la automatización no corrige el problema, AMS le informa del caso del incidente y contrata a un ingeniero de AMS. Además, estas alertas se pueden enviar directamente a su correo electrónico (si ha optado por el tema de las Direct-Customer-Alerts redes sociales).

Instancia de Application Load Balancer (ALB)

No

RejectedConnectionCount

suma > 0 durante 1 minuto, 5 veces consecutivas.

CloudWatch alarma si el número de conexiones que se rechazaron porque el balanceador de carga alcanzó su máximo.

Objetivo de Application Load Balancer (ALB)

No

TargetConnectionErrorCount

suma > 0 durante 1 minuto, 5 veces consecutivas.

CloudWatch alarma si el número de conexiones no se estableció correctamente entre el balanceador de cargas y las instancias registradas.

EC2 Instancia de Amazon: Windows

No

SecureChannelFailure

> 0.0 para 10 de los últimos 15 puntos de datos.

CloudWatch alarma en las instancias de Windows para avisar cuando se produce un error en la conexión Secure a Channel.

Instancia Aurora

No

CPUUtilization

> 85% durante 5 minutos, 2 veces consecutivas.

CloudWatch alarma.

AWS Backup

DeleteRecoveryPoint

Un director de rol de IAM o un usuario principal de IAM inesperado ha eliminado un punto de AWS Backup recuperación.

CloudWatch evento. Se emite cuando se elimina un punto de recuperación de una copia de seguridad.

AWS Outposts

AMSOutpostsInstanceFamilyCapacityAvailability InstanceFamilyCapacityAvailability

= 80% durante 5 minutos, 12 veces consecutivas.

CloudWatch alarma en la familia de instancias, capacidad y disponibilidad del AWS Outposts recurso.

AMSOutpostsInstanceTypeCapacityAvailability TypeCapacityAvailability

= 80% durante 5 minutos, 12 veces consecutivas.

CloudWatch alarma sobre el tipo de instancia, la capacidad y la disponibilidad del AWS Outposts recurso.

AMSOutpostsConnectedStatusConnectedStatus

< 1 durante 5 minutos, 1 vez consecutiva.

CloudWatch alarma en la conexión AWS Outposts del enlace de servicio, se ha averiado menos de 1 cuenta.

AMSOutpostsCapacityExceptionCapacityExceptions

0 durante 5 minutos, 1 vez consecutiva.

CloudWatch alarma por errores de capacidad insuficiente (por ejemplo, lanzamientos de AWS Outposts un recurso)

.

EC2 instancia: todos OSs

No

CPUUtilization*

>= 95% durante 5 minutos, 6 veces consecutivas.

CloudWatch alarma. El uso elevado de la CPU es un indicador de un cambio en el estado de la aplicación, como bloqueos muertos, bucles infinitos, ataques maliciosos y otras anomalías.

StatusCheckFailed

> 0 durante 5 minutos, 3 veces consecutivas.

CloudWatch alarma.

Uso del volumen raíz

>= 95% durante 5 minutos, 6 veces consecutivas.

Uso de volúmenes sin root

> 85% durante 5 minutos, 2 veces consecutivas.

Desactivado de forma predeterminada; para obtener más información, consulte https://docs.aws.amazon.com/managedservices/latest/ctref/management-monitoring-cloudwatch-enable-non-root-volumes-monitoring.html#management-monitoring-cloudwatch-enable-non-root-volumes-monitoring-info.

Libre de memoria*

MemoryFree < 5% durante 5 minutos, 6 veces consecutivas.

Malware EPS

Se encontró malware en una instancia.

CloudWatch evento.

EC2 Instancia de Amazon: Linux

No

Uso del inodo del volumen raíz

Promedio superior al 95% durante 5 minutos, 6 veces consecutivas.

CloudWatch alarma. Se aplica solo a instancias de Linux.

Sin intercambios*

Intercambio de memoria inferior al 5% durante 5 minutos, 6 veces consecutivas.

ElastiCache Clúster

No

CurrConnections = 65000

Esta alarma notifica a AMS el límite máximo de conexión de un ElastiCache host.

CloudWatch Alarma. Si desea actualizar este umbral, póngase en contacto con el servicio de asistencia de AMS.

ElastiCache Nodo

No

CPUUtilization

Promedio > valor predefinido durante 15 minutos, 2 veces consecutivas.

CloudWatch alarma. El valor predeterminado es 90. Si es Redis, usa uno de los siguientes valores según el tipo de instancia:

  • cache.t1.micro: 90%

  • cache.m1.small: 90%

  • cache.m1.medium: 90%

  • cache.m1.large: 45%

  • cache.m1.xlarge: 22,5%

  • cache.m2.xlarge: 45%

  • cache.m2.4xlarge: 11,25%

  • cache.c1.xlarge: 11,25%

  • cache.t2.micro: 90%

  • cache.t2.small: 90%

  • cache.t2.medium: 45%

  • cache.m3.medium: 90%

  • cache.m3.large: 45%

  • cache.m3.xlarge: 22,5%

  • cache.m3.2xlarge: 11,25%

  • cacher.3.large: 45%

  • cache.r3.xlarge: 22,5%

  • cache.r3.2xlarge: 11,25%

  • cache.r3.4xlarge: 5,625%

  • cacher.3.8x grande: 2.8125%

ElastiCache Nodo: memcached

No

SwapUsage

máximo > 50 000 000 bytes durante 5 minutos, 5 veces consecutivas.

CloudWatch alarma. Se aplica solo a memcached.

OpenSearch clúster

No

ClusterStatus.red

el máximo es >= 1 durante 1 minuto, 1 vez consecutiva.

Cuando se activa esta alerta, AMS toma medidas proactivas para reducir el impacto operativo.

CloudWatch alarma. Al menos una partición principal y sus réplicas no están asignados a un nodo. Para obtener más información, consulte Red Cluster Status.

Dominio OpenSearch

No

KMSKeyError

>= 1 durante 1 minuto, 1 vez consecutiva.

CloudWatch alarma. La clave de cifrado de KMS que se utiliza para cifrar los datos en reposo en el dominio está deshabilitada. Vuelva a habilitarla para restablecer las operaciones normales. Para obtener más información, consulte Cifrado de datos en reposo para OpenSearch Service Service.

ClusterStatus.amarillo

el máximo es >= 1 durante 1 minuto, 1 vez consecutiva

Cuando se activa esta alerta, AMS toma medidas proactivas para reducir el impacto operativo.

Al menos una partición de réplica no está asignada a un nodo. Para obtener más información, consulte Estado del clúster amarillo.

FreeStorageSpace

el mínimo es <= 20480 durante 1 minuto, 1 vez consecutiva

Cuando se activa esta alerta, AMS toma medidas proactivas para reducir el impacto operativo.

El espacio de almacenamiento disponible de un nodo en su clúster se redujo hasta los 20 GiB. Para obtener más información, consulte Falta de espacio de almacenamiento disponible.

ClusterIndexWritesBlocked

>= 1 durante 5 minutos, 1 vez consecutiva

Cuando se activa esta alerta, AMS toma medidas proactivas para reducir el impacto operativo.

El clúster bloquea las solicitudes de escritura. Para obtener más información, consulte ClusterBlockException.

Nodos

el mínimo es < x durante 1 día, 1 vez consecutiva

Cuando se activa esta alerta, AMS toma medidas proactivas para reducir el impacto operativo.

x es el número de nodos del clúster. Esta alarma indica que al menos un nodo del clúster se mantuvo inaccesible durante un día. Para obtener más información, consulte Nodos de clúster fallidos.

CPUUtilization

el promedio es >= 80% durante 15 minutos, 3 veces consecutivas

Cuando se activa esta alerta, AMS toma medidas proactivas para reducir el impacto operativo.

Es habitual utilizar el 100% de la CPU, pero los promedios altos y sostenidos son problemáticos. Considere la posibilidad de utilizar tipos de instancias más grandes o de agregar instancias.

JVMMemoryPresión

el máximo es >= 80% durante 5 minutos, 3 veces consecutivas

Cuando se activa esta alerta, AMS toma medidas proactivas para reducir el impacto operativo.

El clúster podría encontrar errores de memoria insuficiente si aumenta el uso. Considere el escalado vertical. Amazon ES utiliza la mitad de la RAM de una instancia para el montón de Java, hasta un tamaño de pila de 32 GiB. Puede escalar las instancias verticalmente hasta 64 GiB de RAM y después escalarlas horizontalmente mediante el agregado de instancias.

Maestro CPUUtilization

el promedio es >= 50% durante 15 minutos, 3 veces consecutivas

Cuando se activa esta alerta, AMS toma medidas proactivas para reducir el impacto operativo.

Considere la posibilidad de utilizar tipos de instancias más grandes para sus nodos maestros dedicados. Debido a su función en la estabilidad y blue/green las implementaciones de los clústeres, los nodos maestros dedicados deberían tener un uso medio de CPU inferior al de los nodos de datos.

Presión maestra JVMMemory

el máximo es >= 80% durante 15 minutos, 1 vez consecutiva

Cuando se activa esta alerta, AMS toma medidas proactivas para reducir el impacto operativo.

Considere la posibilidad de utilizar tipos de instancias más grandes para sus nodos maestros dedicados. Debido a su función en la estabilidad y blue/green las implementaciones de los clústeres, los nodos maestros dedicados deberían tener un uso medio de CPU inferior al de los nodos de datos.

OpenSearch instancia

No

AutomatedSnapshotFailure

el máximo es >= 1 durante 1 minuto, 1 vez consecutiva.

CloudWatch alarma. Se produjo un error en una instantánea automatizada. Este error suele ser el resultado de un estado rojo del clúster. Consulte el estado del clúster rojo.

Instancia de Elastic Load Balancing

No

SurgeQueueLength

> 100 durante 1 minuto, 15 veces consecutivas.

CloudWatch alarma si hay un número excesivo de solicitudes pendientes de enrutamiento.

HTTPCode_ELB_5xx_Count

suma > 0 durante 5 minutos, 3 veces consecutivas.

CloudWatch alarma por un número excesivo de códigos de respuesta HTTP 5XX que se originan en el balanceador de cargas.

SpilloverCount

> 1 durante 1 minuto, 15 veces consecutivas.

CloudWatch alarma si hay un número excesivo de solicitudes rechazadas porque la cola de espera está llena.

GuardDuty servicio

No aplicable; se supervisan todos los hallazgos (con fines de amenaza). Cada hallazgo corresponde a una alerta.

Cambios en los GuardDuty hallazgos. Entre estos cambios se incluyen los resultados recién generados, y todos los casos posteriores de resultados.

La lista de tipos de GuardDuty hallazgos compatibles se encuentra en GuardDuty Active Finding Types.

Estado

Varía

AWS Health Dashboard

Las notificaciones se envían cuando hay cambios en el estado de los eventos AWS Health Dashboard (AWS Health) en relación con los servicios de referencia compatibles con AMS. Para obtener más información, consulte Servicios compatibles.

AWS Managed Microsoft AD

No

Estado de Active Directory

AWS Managed Microsoft AD la instancia envía un evento de estado activo.

Evento de servicio. Se emite cuando el directorio funciona normalmente después de un evento.

Estado del directorio deteriorado

AWS Managed Microsoft AD la instancia envía un evento de estado de directorio dañado.

Evento de servicio. Se emite cuando el directorio se ejecuta en un estado degradado. Se han detectado uno o varios problemas y no todas las operaciones de directorios pueden funcionar con plena capacidad operativa.

Estado del directorio inoperable

AWS Managed Microsoft AD la instancia envía un evento de estado inoperable.

Evento de servicio. Se emite cuando el directorio no funciona. Todos los puntos de enlace del directorio han informado de la existencia de problemas.

Eliminar el estado del directorio

AWS Managed Microsoft AD la instancia envía un evento de eliminación del estado del directorio.

Evento de servicio. Se emite cuando el directorio se está eliminando actualmente.

Estado del directorio fallido

AWS Managed Microsoft AD la instancia envía un evento de estado fallido.

Evento de servicio. Se emite cuando no se ha podido crear el directorio.

RestoreFailed Estado del directorio

AWS Managed Microsoft AD la instancia envía un evento de restauración fallida del estado del directorio.

Evento de servicio. Se emite cuando se produce un error al restaurar el directorio a partir de una instantánea.

Instancia de Amazon RDS

No

La alerta de bajo nivel de almacenamiento se activa cuando se agota el almacenamiento asignado a la instancia de base de datos.

RDS-EVENT-0007, consulte los detalles en Uso de la notificación de eventos de Amazon RDS.

Fallo en la instancia de base

Se ha producido un error en la instancia de base de datos debido a una configuración incompatible o a un problema de almacenamiento subyacente. Comience a point-in-time-restore para la instancia de base de datos.

Evento de servicio. RDS-EVENT-0031, categorías de eventos y mensajes de eventos de Amazon RDS.

No se intentó la conmutación por error

Amazon RDS no está intentando realizar la conmutación por error solicitada porque recientemente se ha producido una conmutación por error en la instancia de base de datos.

Evento de servicio. RDS-EVENT-0034, categorías de eventos y mensajes de eventos de Amazon RDS.

Parámetros no válidos de la instancia de base

Por ejemplo, MySQL no se pudo iniciar porque un parámetro relacionado con la memoria está establecido en un valor demasiado alto para esta clase de instancia, por lo que la acción del cliente consistiría en modificar el parámetro de memoria y reiniciar la instancia de base de datos.

Evento de servicio. RDS-EVENT-0035, categorías de eventos y mensajes de eventos de Amazon RDS.

Instancia de base IDs de datos de subred no válida

La instancia de base de datos está en una red incompatible. Algunas de las subredes especificadas no IDs son válidas o no existen.

Evento de servicio. RDS-EVENT-0036, categorías de eventos y mensajes de eventos de Amazon RDS.

Error de lectura y réplica de la instancia de base

Se ha producido un error en el proceso de replicación de una réplica de lectura. Para obtener más información, consulte el mensaje del evento. Para obtener información sobre la solución de errores de réplica de lectura, consulte Solución de problemas de réplica de lectura de MySQL.

Evento de servicio. RDS-EVENT-0045, categorías de eventos y mensajes de eventos de Amazon RDS.

Finalizó la replicación de lectura de la instancia de base

Se ha finalizado la replicación en la réplica de lectura.

Evento de servicio. RDS-EVENT-0057, categorías de eventos y mensajes de eventos de Amazon RDS.

Error al crear la cuenta de usuario de statspack

Error al crear la cuenta del usuario PERFSTAT de Statspack. Elimine la cuenta antes de añadir la opción Statspack.

Evento de servicio. RDS-EVENT-0058, categorías de eventos y mensajes de eventos de Amazon RDS.

Inicio de recuperación de instancias de base de datos

La instancia de base de datos de SQL Server está restableciendo su imagen reflejada. El desempeño se degradará hasta que se restablezca la imagen reflejada. Se ha encontrado una base de datos con un modelo de recuperación no completa (non-FULL). El modelo de recuperación volvió a ser COMPLETO y se inició la recuperación duplicada. (<dbname>: <recovery model found>[,...]).

Evento de servicio. RDS-EVENT-0066, categorías de eventos y mensajes de eventos de Amazon RDS.

Ha fallado la conmutación por error de un clúster de bases de datos.

RDS-EVENT-0069, consulte los detalles en las categorías de eventos y los mensajes de eventos de Amazon RDS.

Depósito de S3 de recuperación de permisos no válidos

El rol de IAM que se utiliza para obtener acceso al bucket de Amazon S3 para las operaciones nativas de copia de seguridad y restauración de SQL Server se ha configurado incorrectamente. Para obtener más información, consulte Configuración de Native Backup and Restore.

Evento de servicio. RDS-EVENT-0081, categorías de eventos y mensajes de eventos de Amazon RDS.

Aurora no ha podido copiar los datos de copia de seguridad de un bucket de Amazon S3.

RDS-EVENT-0082, consulte los detalles en las categorías de eventos y los mensajes de eventos de Amazon RDS.

Alerta de almacenamiento bajo cuando la instancia de base de datos ha consumido más del 90% del almacenamiento asignado

RDS-EVENT-0089, consulte los detalles en las categorías de eventos y los mensajes de eventos de Amazon RDS.

El servicio de notificaciones cuando se produce un error de escalado en el clúster de base de datos Aurora Serverless.

RDS-EVENT-0143, consulte los detalles en las categorías de eventos y los mensajes de eventos de Amazon RDS.

La instancia de base de datos se encuentra en un estado no válido. No es necesaria ninguna acción. El escalado automático se volverá a intentar más tarde.

RDS-EVENT-0219, consulte los detalles en las categorías de eventos y los mensajes de eventos de Amazon RDS.

La instancia de base de datos alcanzó el umbral de almacenamiento completo y se cerró la base de datos.

RDS-EVENT-0221, consulte los detalles en las categorías de eventos y los mensajes de eventos de Amazon RDS.

Este evento indica que el escalado automático del almacenamiento de la instancia de RDS no puede escalarse. Es posible que el escalado automático no se pueda escalar por varios motivos.

RDS-EVENT-0223, consulte los detalles en las categorías de eventos y los mensajes de eventos de Amazon RDS.

El escalado automático del almacenamiento ha desencadenado una tarea de escala de almacenamiento pendiente que alcanzaría el umbral máximo de almacenamiento.

RDS-EVENT-0224, consulte los detalles en las categorías de eventos y los mensajes de eventos de Amazon RDS.

La instancia de base de datos tiene un tipo de almacenamiento que no está disponible actualmente en la zona de disponibilidad. El escalado automático se volverá a intentar más tarde.

RDS-EVENT-0237, consulte los detalles en las categorías de eventos y los mensajes de eventos de Amazon RDS.

RDS no ha podido aprovisionar capacidad para el proxy porque no hay suficientes direcciones IP disponibles en las subredes.

RDS-EVENT-0243, consulte los detalles en las categorías de eventos y los mensajes de eventos de Amazon RDS.

El almacenamiento de su cuenta de AWS ha superado la cuota de almacenamiento permitida.

RDS-EVENT-0254, consulte los detalles en las categorías de eventos y los mensajes de eventos de Amazon RDS.

CPUUtilization

Utilización media de la CPU superior al 90% durante 15 minutos, 2 veces consecutivas.

CloudWatch alarma.

DiskQueueDepth

La suma es > 75 durante 1 minuto, 15 veces consecutivas.

FreeStorageSpace

Promedio < 1.073.741.824 bytes durante 5 minutos, 2 veces consecutivas.

SwapUsage

Promedio = 104.857.600 bytes durante 5 minutos, 2 veces consecutivas.

Clúster de Amazon Redshift

No

RedshiftClusterStatus

El estado del clúster cuando no está en modo de mantenimiento es inferior a 1 durante 5 minutos.

1 representa un clúster en buen estado.

Amazon Macie

Alertas recién generadas y actualizaciones de las alertas existentes.

Macie encuentra cualquier cambio en los resultados. Entre estos cambios se incluyen los resultados recién generados, y todos los casos posteriores de resultados.

Alerta de Amazon Macie. Para obtener una lista de los tipos de alertas de Macie compatibles, consulte Análisis de los hallazgos de Amazon Macie. Tenga en cuenta que Macie no está activado para todas las cuentas.

AMS toma medidas proactivas (escalando el clúster) cuando se activa esta alerta.

Para obtener información sobre las medidas correctivas, consulte. Remediación automática de alertas por parte de AMS