View a markdown version of this page

실험 결과 문서 - AWS 권장 가이드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

실험 결과 문서

Configuration

실험의 특정 구성을 문서화합니다. 예:

  • 초당 총 85K000명의 사용자를 시뮬레이션하도록 설정된 로드 생성.

사전 조건

  • 알파 테스트 환경에서 반려동물 입양 사이트가 실행되고 있는지 확인했습니다.

  • 실험 템플릿이 EKS 클러스터에서 실행 중인 PetSite 애플리케이션 포드에 CPU 스트레스를 적용하도록 구성되었는지 확인했습니다.   애플리케이션 포드는 Kubernetes 레이블 로 식별되었습니다app=petsite.

  • 로드가 실행 중이고 초당 85개의 요청을 생성하는 것으로 확인되었습니다.

정상 상태

안정 상태를 달성하기 위해 수행한 단계와 이를 확인한 방법을 문서화합니다. 예:

반려동물 채택 사이트의 테스트 배포의 경우 안정 상태를 시뮬레이션하기 위해 85RPS의 부하가 생성됩니다. CloudWatch RUM 및 CloudWatch 대시보드를 검토하여 실험 실행 전에 모든 비즈니스 및 애플리케이션 지표가 정상 범위 내에 있는지 확인했습니다.

관찰성 데이터:

예상 관찰됨
  • 요청의 P99에 대한 LCP는 4초 미만입니다.

  • 응답 지연 시간은 500ms 미만입니다.

  • 4XX 또는 5XX 오류는 없습니다.

카오스 실험에 대한 안정 상태 보고서 1.

카오스 실험에 대한 안정 상태 보고서 2.

결함 주입

AWS FIS 는 실험 템플릿(링크 제공)을 사용하여 결함을 주입하는 데 사용되었습니다. 실험은 10분 동안 실행되도록 설정되었으며 작업자 노드에 60% 이상의 CPU 스트레스가 발생한 경우 롤백이 구성되었습니다.

결함 관찰

CloudWatch RUM 및 CloudWatch 대시보드를 검토하여 애플리케이션의 안정 상태(LCP 지표를 사용하여 정의)를 추적했습니다.   스크린샷은 다음 표에 캡처되었습니다.

관찰성 데이터:

예상 관찰됨
  • P99의 경우 LCP는 4초 미만으로 유지되어야 합니다.

  • 응답 시간은 500ms 미만이어야 합니다.

  • 4XX 또는 5XX 오류가 발생하지 않아야 합니다.

카오스 실험에 대한 결함 관찰 보고서 1.

카오스 실험에 대한 결함 관찰 보고서 2.

복구

스트레스가 제거된 후( AWS FIS 실험이 완료되고 포드에서 CPU 스트레스가 제거됨) 애플리케이션은 정상 안정 상태를 재개해야 합니다.   수동 개입은 필요하지 않습니다.

관찰성 데이터:

예상 관찰됨(스크린샷)

LCP P99는 4초 미만이어야 하며 평균은 2.5초 미만이어야 합니다.

카오스 실험의 샘플 복구 결과.