View a markdown version of this page

CloudWatch Alarmas - Pruebas de carga distribuidas en AWS

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

CloudWatch Alarmas

Esta solución implementa dos CloudWatch alarmas que monitorean las condiciones operativas que requieren atención. De forma predeterminada, estas alarmas no tienen configuradas acciones de notificación. Recomendamos suscribir un tema de Amazon SNS a cada alarma para que los operadores reciban una notificación inmediata cuando se produzcan problemas.

Suscríbase a las notificaciones de alarmas

Para recibir notificaciones cuando se active una alarma:

  1. Abre la consola de CloudWatch alarmas.

  2. Busque alarmas con el prefijo del nombre de su pila (por ejemplo,my-stack-OrphanCleanupFailure).

  3. Seleccione la alarma y elija Editar.

  4. En Notificación, selecciona Añadir notificación.

  5. Seleccione o cree un tema de SNS con sus puntos de enlace de notificación preferidos (correo electrónico, SMS o Lambda).

  6. Elija Update alarm (Actualizar alarma).

Repita el procedimiento para cada alarma.

OrphanCleanupFailure

Atributo Valor

Nombre de alarma

{StackName}-OrphanCleanupFailure

Métrica

OrphanCleanupFailuresen el distributed-load-testing espacio de nombres

Threshold

>= 1 error en 5 minutos

Trate los datos faltantes

Violación

Qué monitorea esta alarma: la solución utiliza tres niveles de defensa para evitar que los servicios de ECS se descontrolen:

  • Capa 1: gestión automática de errores: el flujo de trabajo de organización de las pruebas incluye la gestión de errores en cada paso. Si algo falla durante el aprovisionamiento, la estabilización o la ejecución, el flujo de trabajo activa automáticamente la limpieza para agotar y eliminar los servicios de ECS.

  • Nivel 2: detección de errores de ejecución: si el propio flujo de trabajo de orquestación se cierra inesperadamente (por ejemplo, debido a un tiempo de espera o a un error interno que evita la gestión normal de los errores), una EventBridge regla detecta el error y activa de forma independiente la limpieza de cada región implicada en la prueba.

  • Capa 3: limpieza de huérfanos cada hora: un proceso programado se ejecuta cada hora, busca servicios de ECS que no estén asociados a ninguna prueba activa y los elimina forzosamente. Esta es la red de seguridad de último recurso: si tanto la capa 1 como la capa 2 fallan, los servicios filtrados se eliminan en menos de una hora. Si el proceso de limpieza de los huérfanos en sí mismo falla, se activa esta alarma.

Por qué es importante: los servicios huérfanos de ECS Fargate siguen funcionando e incurriendo en cargos sin visibilidad en la consola DLT. Sin una suscripción a las notificaciones, los operadores solo descubrirán el problema cuando aparezcan costes inesperados en la factura.

Respuesta recomendada: Cuando se active esta alarma, vaya a la consola de Amazon ECS, identifique los servicios del clúster de DLT que no correspondan a una prueba en ejecución y elimínelos manualmente.

MetricFilterCount

Atributo Valor

Nombre de alarma

{StackName}-MetricFilterCount-Alarm

Métrica

MetricFilterCounten el espacio de nombres distributed-load-testing

Threshold

>= 90

Trate los datos faltantes

¿No está infringiendo

Qué monitorea esta alarma: la solución crea filtros de CloudWatch métricas de forma dinámica en el grupo de registros del ECS para respaldar las métricas en tiempo real durante la ejecución de las pruebas. AWS limita cada grupo de registros a 100 filtros métricos. Esta alarma se activa cuando el uso alcanza el 90% de ese límite.

Por qué es importante: si se alcanza el límite, las nuevas pruebas de carga fallarán.

Respuesta recomendada: elimine los escenarios de prueba que ya no sean necesarios. Cuando se elimina un escenario de prueba, la solución elimina los filtros de métricas asociados y libera capacidad para realizar nuevas pruebas.