Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
CloudWatch Alarmas
Esta solución implementa dos CloudWatch alarmas que monitorean las condiciones operativas que requieren atención. De forma predeterminada, estas alarmas no tienen configuradas acciones de notificación. Recomendamos suscribir un tema de Amazon SNS a cada alarma para que los operadores reciban una notificación inmediata cuando se produzcan problemas.
Suscríbase a las notificaciones de alarmas
Para recibir notificaciones cuando se active una alarma:
-
Abre la consola de CloudWatch alarmas
. -
Busque alarmas con el prefijo del nombre de su pila (por ejemplo,
my-stack-OrphanCleanupFailure). -
Seleccione la alarma y elija Editar.
-
En Notificación, selecciona Añadir notificación.
-
Seleccione o cree un tema de SNS con sus puntos de enlace de notificación preferidos (correo electrónico, SMS o Lambda).
-
Elija Update alarm (Actualizar alarma).
Repita el procedimiento para cada alarma.
OrphanCleanupFailure
| Atributo | Valor |
|---|---|
|
Nombre de alarma |
|
|
Métrica |
|
|
Threshold |
>= 1 error en 5 minutos |
|
Trate los datos faltantes |
Violación |
Qué monitorea esta alarma: la solución utiliza tres niveles de defensa para evitar que los servicios de ECS se descontrolen:
-
Capa 1: gestión automática de errores: el flujo de trabajo de organización de las pruebas incluye la gestión de errores en cada paso. Si algo falla durante el aprovisionamiento, la estabilización o la ejecución, el flujo de trabajo activa automáticamente la limpieza para agotar y eliminar los servicios de ECS.
-
Nivel 2: detección de errores de ejecución: si el propio flujo de trabajo de orquestación se cierra inesperadamente (por ejemplo, debido a un tiempo de espera o a un error interno que evita la gestión normal de los errores), una EventBridge regla detecta el error y activa de forma independiente la limpieza de cada región implicada en la prueba.
-
Capa 3: limpieza de huérfanos cada hora: un proceso programado se ejecuta cada hora, busca servicios de ECS que no estén asociados a ninguna prueba activa y los elimina forzosamente. Esta es la red de seguridad de último recurso: si tanto la capa 1 como la capa 2 fallan, los servicios filtrados se eliminan en menos de una hora. Si el proceso de limpieza de los huérfanos en sí mismo falla, se activa esta alarma.
Por qué es importante: los servicios huérfanos de ECS Fargate siguen funcionando e incurriendo en cargos sin visibilidad en la consola DLT. Sin una suscripción a las notificaciones, los operadores solo descubrirán el problema cuando aparezcan costes inesperados en la factura.
Respuesta recomendada: Cuando se active esta alarma, vaya a la consola de Amazon ECS
MetricFilterCount
| Atributo | Valor |
|---|---|
|
Nombre de alarma |
|
|
Métrica |
|
|
Threshold |
>= 90 |
|
Trate los datos faltantes |
¿No está infringiendo |
Qué monitorea esta alarma: la solución crea filtros de CloudWatch métricas de forma dinámica en el grupo de registros del ECS para respaldar las métricas en tiempo real durante la ejecución de las pruebas. AWS limita cada grupo de registros a 100 filtros métricos. Esta alarma se activa cuando el uso alcanza el 90% de ese límite.
Por qué es importante: si se alcanza el límite, las nuevas pruebas de carga fallarán.
Respuesta recomendada: elimine los escenarios de prueba que ya no sean necesarios. Cuando se elimina un escenario de prueba, la solución elimina los filtros de métricas asociados y libera capacidad para realizar nuevas pruebas.