Configuração Pré-requisitos Estado estacionário Injeção de falhas Observação de falhas Recuperação

Documento do resultado do experimento

Configuração

Documente as configurações específicas do experimento. Por exemplo:

Conjunto de geração de carga para simular 5 mil usuários emitindo um total de 85 solicitações por segundo.

Pré-requisitos

Verificou se o site de adoção de animais de estimação estava funcionando no ambiente de teste alfa.
Verifiquei se o modelo do experimento foi configurado para aplicar estresse de CPU aos pods de PetSite aplicativos que estão sendo executados no cluster EKS. Os pods de aplicativos foram identificados pelo rótulo Kubernetes. app=petsite
Foi confirmado que a carga está sendo executada e gerando 85 solicitações por segundo.

Estado estacionário

Documente as etapas tomadas para alcançar o estado estável e como você o verificou. Por exemplo:

Para a implantação de teste do local de adoção de animais de estimação, uma carga de 85 RPS está sendo gerada para simular o estado estacionário. O CloudWatch RUM e os CloudWatch painéis foram revisados para verificar se todas as métricas de negócios e aplicativos estavam dentro dos intervalos normais antes da execução do experimento.

Dados de observabilidade:

Esperados	Observado
O LCP é inferior a 4 segundos para P99 de solicitações. A latência de resposta é inferior a 500 ms. Não há erros 4XX ou 5XX.

Injeção de falhas

AWS FIS foi usado para injetar falhas usando o modelo do experimento (forneça o link). O experimento foi configurado para ser executado por 10 minutos, e uma reversão foi configurada se os nós de trabalho sofressem estresse na CPU acima de 60%.

Observação de falhas

O CloudWatch RUM e os CloudWatch painéis foram revisados para rastrear o estado estável do aplicativo (definido usando métricas de LCP). As capturas de tela foram capturadas na tabela a seguir.

Dados de observabilidade:

Esperados	Observado
O LCP deve permanecer abaixo de 4 segundos para o P99. O tempo de resposta deve permanecer abaixo de 500 ms. Nenhum erro 4XX ou 5XX deve ser encontrado.

Recuperação

Depois que o estresse for removido (o AWS FIS experimento foi concluído e o estresse da CPU foi removido dos pods), o aplicativo deve retomar seu estado estável normal. Nenhuma intervenção manual deve ser necessária.

Dados de observabilidade:

Esperados	Observado (captura de tela)
O LCP P99 deve estar abaixo de 4 segundos, com a média abaixo de 2,5 segundos.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Documento de planejamento de experimentos

Histórico do documento