View a markdown version of this page

Documento de resultados del experimento - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Documento de resultados del experimento

Configuración

Documente las configuraciones específicas del experimento. Por ejemplo:

  • La generación de carga está configurada para simular que 5000 usuarios emiten un total de 85 solicitudes por segundo.

Requisitos previos

  • Se verificó que el sitio de adopción de mascotas funcionaba en el entorno de prueba alfa.

  • Se verificó que la plantilla del experimento estaba configurada para aplicar stress de CPU a los pods de PetSite aplicaciones que se ejecutan en el clúster de EKS.  Los pods de aplicaciones se identificaban con la etiqueta Kubernetes. app=petsite

  • Se confirmó que Load estaba en ejecución y generaba 85 solicitudes por segundo.

Estado estacionario

Documente los pasos dados para alcanzar el estado estable y cómo lo verificó. Por ejemplo:

Para la implementación de prueba de un sitio de adopción de mascotas, se generará una carga de 85 RPS para simular el estado estable. Antes de la ejecución del experimento, se revisaron el CloudWatch RUM y los CloudWatch cuadros de mando para comprobar que todas las métricas empresariales y de las aplicaciones se encontraban dentro de los rangos normales.

Datos de observabilidad:

Expected Observado
  • El LCP dura menos de 4 segundos para el 99% de las solicitudes.

  • La latencia de respuesta es inferior a 500 ms.

  • No hay errores 4XX ni 5XX.

Informe de estado estacionario 1 para el experimento del caos.

Informe de estado estacionario 2 para el experimento del caos.

Inyección de errores

AWS FIS se utilizó para detectar fallas utilizando la plantilla del experimento (proporcione el enlace). El experimento estaba programado para ejecutarse durante 10 minutos y se configuró una reversión si los nodos trabajadores experimentaban un estrés de CPU superior al 60 por ciento.

Observación de fallos

Se revisaron el CloudWatch RUM y los CloudWatch paneles de control para realizar un seguimiento del estado estable de la aplicación (definido mediante métricas de LCP).  Las capturas de pantalla se capturaron en la siguiente tabla.

Datos de observabilidad:

Expected Observado
  • El LCP debe permanecer por debajo de 4 segundos para el P99.

  • El tiempo de respuesta debe permanecer por debajo de 500 ms.

  • No se deben encontrar errores 4XX o 5XX.

Informe de observación de fallas 1 para el experimento de caos.

Informe de observación de fallas 2 para el experimento de caos.

Recuperación

Una vez eliminada la tensión (el AWS FIS experimento se ha completado y se ha eliminado la tensión de la CPU de los módulos), la aplicación debería volver a su estado estable normal.  No debería ser necesaria ninguna intervención manual.

Datos de observabilidad:

Expected Observado (captura de pantalla)

El LCP P99 debe durar menos de 4 segundos con una media inferior a 2,5 segundos.

Muestra de los resultados de la recuperación del experimento caótico.