Configuración Requisitos previos Estado estacionario Inyección de errores Observación de fallos Recuperación

Documento de resultados del experimento

Configuración

Documente las configuraciones específicas del experimento. Por ejemplo:

La generación de carga está configurada para simular que 5000 usuarios emiten un total de 85 solicitudes por segundo.

Requisitos previos

Se verificó que el sitio de adopción de mascotas funcionaba en el entorno de prueba alfa.
Se verificó que la plantilla del experimento estaba configurada para aplicar stress de CPU a los pods de PetSite aplicaciones que se ejecutan en el clúster de EKS. Los pods de aplicaciones se identificaban con la etiqueta Kubernetes. app=petsite
Se confirmó que Load estaba en ejecución y generaba 85 solicitudes por segundo.

Estado estacionario

Documente los pasos dados para alcanzar el estado estable y cómo lo verificó. Por ejemplo:

Para la implementación de prueba de un sitio de adopción de mascotas, se generará una carga de 85 RPS para simular el estado estable. Antes de la ejecución del experimento, se revisaron el CloudWatch RUM y los CloudWatch cuadros de mando para comprobar que todas las métricas empresariales y de las aplicaciones se encontraban dentro de los rangos normales.

Datos de observabilidad:

Expected	Observado
El LCP dura menos de 4 segundos para el 99% de las solicitudes. La latencia de respuesta es inferior a 500 ms. No hay errores 4XX ni 5XX.

Inyección de errores

AWS FIS se utilizó para detectar fallas utilizando la plantilla del experimento (proporcione el enlace). El experimento estaba programado para ejecutarse durante 10 minutos y se configuró una reversión si los nodos trabajadores experimentaban un estrés de CPU superior al 60 por ciento.

Observación de fallos

Se revisaron el CloudWatch RUM y los CloudWatch paneles de control para realizar un seguimiento del estado estable de la aplicación (definido mediante métricas de LCP). Las capturas de pantalla se capturaron en la siguiente tabla.

Datos de observabilidad:

Expected	Observado
El LCP debe permanecer por debajo de 4 segundos para el P99. El tiempo de respuesta debe permanecer por debajo de 500 ms. No se deben encontrar errores 4XX o 5XX.

Recuperación

Una vez eliminada la tensión (el AWS FIS experimento se ha completado y se ha eliminado la tensión de la CPU de los módulos), la aplicación debería volver a su estado estable normal. No debería ser necesaria ninguna intervención manual.

Datos de observabilidad:

Expected	Observado (captura de pantalla)
El LCP P99 debe durar menos de 4 segundos con una media inferior a 2,5 segundos.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Documento de planificación del experimento

Historial de documentos