View a markdown version of this page

實驗結果文件 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

實驗結果文件

組態

記錄實驗的特定組態。例如:

  • 負載產生設定為模擬 5K 使用者每秒發出總計 85 個請求。

先決條件

  • 驗證寵物採用網站是否在 Alpha 測試環境中執行。

  • 驗證實驗範本已設定為將 CPU 壓力套用至在 EKS 叢集中執行的 PetSite 應用程式 Pod。  應用程式 Pod 由 Kubernetes 標籤 識別app=petsite

  • 負載已確認正在執行,每秒產生 85 個請求。

穩定狀態

記錄為了達到穩定狀態所採取的步驟,以及驗證的方式。例如:

對於寵物採用網站的測試部署,會產生 85 RPS 的負載來模擬穩定狀態。已檢閱 CloudWatch RUM 和 CloudWatch 儀表板,以確認在執行實驗之前,所有業務和應用程式指標都在正常範圍內。

可觀測性資料:

預期 觀察到的
  • P99 請求的 LCP 少於 4 秒。

  • 回應延遲小於 500 毫秒。

  • 沒有 4XX 或 5XX 錯誤。

混沌實驗的穩定狀態報告 1。

混沌實驗的穩定狀態報告 2。

錯誤注入

AWS FIS 使用實驗範本 (提供連結) 來注入錯誤。實驗設定為執行 10 分鐘,如果工作者節點遇到 CPU 壓力超過 60%,則會設定回復。

故障觀察

已檢閱 CloudWatch RUM 和 CloudWatch 儀表板,以追蹤應用程式的穩定狀態 (使用 LCP 指標定義)。  螢幕擷取畫面擷取於下表。

可觀測性資料:

預期 觀察到的
  • 對於 P99,LCP 應保持在 4 秒以內。

  • 回應時間應保持在 500 毫秒以下。

  • 不應遇到 4XX 或 5XX 錯誤。

混沌實驗的故障觀察報告 1。

混沌實驗的故障觀察報告 2。

復原

移除壓力後 ( AWS FIS 實驗已完成並從 Pod 移除 CPU 壓力),應用程式應繼續正常穩定狀態。  不需要手動介入。

可觀測性資料:

預期 觀察 (螢幕擷取畫面)

LCP P99 應低於 4 秒,平均值低於 2.5 秒。

混沌實驗的復原結果範例。