

# 程序和文化
<a name="a-process-culture"></a>

**Topics**
+ [PERF 5. 您的組織實務和文化如何促進工作負載的效能達成效率？](perf-05.md)

# PERF 5. 您的組織實務和文化如何促進工作負載的效能達成效率？
<a name="perf-05"></a>

 在架構工作負載時，您可以採取一些原則和實務來協助您更有效率地執行高效能雲端工作負載。為了培養高效能雲端工作負載的文化，請考慮下列重要原則和實務：

**Topics**
+ [PERF05-BP01 建立用於測量工作負載運作狀態和效能的關鍵績效指標 (KPI)](perf_process_culture_establish_key_performance_indicators.md)
+ [PERF05-BP02 使用監控解決方案了解效能最關鍵的領域](perf_process_culture_use_monitoring_solutions.md)
+ [PERF05-BP03 定義提高工作負載效能的程序](perf_process_culture_workload_performance.md)
+ [PERF05-BP04 Load 測試工作負載](perf_process_culture_load_test.md)
+ [PERF05-BP05 使用自動化主動修復效能相關問題](perf_process_culture_automation_remediate_issues.md)
+ [PERF05-BP06 保留工作負載和服務 up-to-date](perf_process_culture_keep_workload_and_services_up_to_date.md)
+ [PERF05-BP07 定期審查指標](perf_process_culture_review_metrics.md)

# PERF05-BP01 建立用於測量工作負載運作狀態和效能的關鍵績效指標 (KPI)
<a name="perf_process_culture_establish_key_performance_indicators"></a>

 識別定量和定性衡量工作負載效能的 KPI。KPI 有助於測量與業務目標相關的工作負載的運作狀態和效能。

 **常見的反模式：**
+  您只能監控系統層級指標，以深入了解工作負載，而不了解這些指標的業務影響。
+  假設 KPI 已做為標準指標資料發佈和共用。
+  沒有定義定量、可衡量的 KPI。
+  沒有將 KPI 與業務目標或策略保持一致。

 **建立此最佳實務的優勢：**找出代表工作負載健康狀態和效能的特定 KPI，有助團隊以一致的標準排定優先事項並定義成功的業務成果。與所有部門共用這些指標可提供閾值、期望和業務影響的可見性和一致性。

 **未建立此最佳實務時的曝險等級：**高 

## 實作指引
<a name="implementation-guidance"></a>

 KPI 可讓業務和工程團隊以一致的標準衡量目標和策略，以及將這些因素結合以產生商業成果的方式。例如，網站工作負載可能使用頁面載入時間，作為整體效能的指示。此指標將是衡量使用者體驗的多個資料點之一。除了找出頁面載入時間閾值外，您還應該記錄未符合理想效能時預期的成果或業務風險。較長的頁面載入時間會直接影響您的使用者，降低其使用者體驗等級，並可能導致客戶流失。當您定義 KPI 閾值時，請同時結合業界基準和最終使用者期望。例如，如果目前業界基準是網頁在兩秒內載入，但最終使用者期望網頁在一秒內載入，則您在建立 KPI 時應將這兩個資料點列入考慮。

 團隊必須使用即時精密資料和歷史資料作為參考，來評估工作負載 KPI，並建立儀表板，針對 KPI 資料執行指標數學，以衍生營運和使用率洞察。KPI 應該加以記錄，並包含支援業務目標和策略的 KPI 和閾值，並應映射至受監控的指標。當業務目標、策略或最終使用者需求變更時，應該重新檢視 KPI。   

## 實作步驟
<a name="implementation-steps"></a>
+ **識別利益相關者：**識別和記錄關鍵業務利益相關者，包括開發和運營團隊。
+ **定義目標：**與利益相關者合作，以定義和記錄工作負載的目標。考慮工作負載的關鍵效能層面，例如輸送量、回應時間和成本，以及業務目標，例如使用者滿意度。
+ **審核業界最佳實務：**審核業界最佳實務，以找出符合您工作負載目標的相關 KPI。
+  **識別指標：**找出符合您工作負載目標的指標，可協助您衡量效能和業務目標。建立以這些指標為基礎的 KPI。範例指標是諸如平均回應時間或並發使用者數量等測量值。
+ **定義並記錄 KPI：**使用業界最佳實務和工作負載目標，為工作負載 KPI 設立目標。使用此資訊，來設定嚴重性或警示層級的 KPI 閾值。找出並記錄未達到 KPI 的風險和影響。
+ **實作監控：**使用監控工具 (例如 [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) 或 [AWS Config](https://aws.amazon.com/config/)) 來收集指標並測量 KPI。
+ **以視覺化方式傳達 KPI：**使用 [Amazon Quick](https://aws.amazon.com/pm/quicksight/) 等儀表板工具，視覺化 KPI 並與利益相關者溝通。
+ **分析和最佳化：**定期審核和分析 KPI，以找出需要改善的工作負載領域。與利益相關者合作以實作這些改進。
+ **重新檢視和調整：**定期審核指標和 KPI 以評估其有效性，尤其是在業務目標或工作負載效能變更時。

## 資源
<a name="resources"></a>

 **相關文件：**
+  [CloudWatch 文件](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html) 
+  [監控、日誌記錄和效能 AWS Partner](https://aws.amazon.com/devops/partner-solutions/#_Monitoring.2C_Logging.2C_and_Performance) 
+ [AWS 可觀測性工具](https://docs.aws.amazon.com/wellarchitected/latest/management-and-governance-guide/aws-observability-tools.html)
+ [大規模雲端遷移關鍵績效指標 (KPI) 的重要性](https://aws.amazon.com/blogs/mt/the-importance-of-key-performance-indicators-kpis-for-large-scale-cloud-migrations/)
+ [如何使用 KPI 儀表板追蹤成本最佳化 KPI](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)
+  [X-Ray 文件](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html) 
+  [使用 Amazon CloudWatch 儀表板](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html?ref=wellarchitected) 
+  [Quick KPI](https://docs.aws.amazon.com/quicksight/latest/user/kpi.html) 

 **相關影片：**
+ [AWS re:Invent 2023 - 優化成本和效能並追蹤緩解措施的進度](https://www.youtube.com/watch?v=keAfy8f84E0)
+ [AWS re:Invent 2023 - 使用 AWS Health 大規模管理資源生命週期事件](https://www.youtube.com/watch?v=VoLLNL5j9NA)
+ [AWS re:Invent 2023 - Pinterest 的效能與效率：最佳化最新的執行個體](https://www.youtube.com/watch?v=QSudpowE_Hs)
+ [AWS re:Invent 2022 - AWS 優化：立即見效的可操作步驟](https://www.youtube.com/watch?v=0ifvNf2Tx3w)
+ [AWS re:Invent 2023 - 建立有效的可觀測性策略](https://www.youtube.com/watch?v=7PQv9eYCJW8)
+ [AWS Summit SF 2022 - 使用 AWS 獲得全堆疊可觀測性和應用程式監控](https://www.youtube.com/watch?v=or7uFFyHIX0)
+ [AWS re:Invent 2023 - 針對前 1000 萬個使用者在 AWS 上進行擴展](https://www.youtube.com/watch?v=JzuNJ8OUht0)
+ [AWS re:Invent 2022 - Amazon 如何使用更好的指標來提高網站效能](https://www.youtube.com/watch?v=_uaaCiyJCFA)
+ [為您的企業建立有效的指標策略 \$1 AWS 活動](https://www.youtube.com/watch?v=zBO-K4RvbtM)

 **相關範例：**
+  [使用 Quick 建立儀表板](https://github.com/aws-samples/amazon-quicksight-sdk-proserve) 

# PERF05-BP02 使用監控解決方案了解效能最關鍵的領域
<a name="perf_process_culture_use_monitoring_solutions"></a>

 了解並找出提高工作負載效能將對效率或客戶體驗產生正面影響的地方。例如，具有大量客戶互動的網站可受益於邊緣服務的使用，因為這樣可以將內容交付移至更接近客戶的地方。

 **常見的反模式：**
+  您假設標準運算指標 (例如 CPU 使用率或記憶體壓力) 足以找出效能問題。
+  您只會使用所選監控軟體記錄的預設指標。
+  您只會在有問題時審查指標。

 **建立此最佳實務的優勢：**了解效能的關鍵領域，有助於工作負載擁有者監控 KPI 和優先處理具有高影響力的待改善之處。

 **未建立此最佳實務時的曝險等級：**高 

## 實作指引
<a name="implementation-guidance"></a>

 設定端對端追蹤，以識別流量模式、延遲和關鍵效能領域。監控您的資料存取模式，以確定是否有緩慢的查詢或分段及分割不佳的資料。使用負載測試或監控來找出工作負載受限領域。

 透過了解架構、流量模式和資料存取模式，來提高效能效率，並確定延遲和處理時間。找出隨著工作負載的成長，可能會影響客戶體驗的潛在瓶頸。調查這些領域後，請審視自己可以部署哪個解決方案，來消除這些效能疑慮。

### 實作步驟
<a name="implementation-steps"></a>
+  設置端到端監控，來擷取所有工作負載組成部分和指標。以下是 AWS 上的監控解決方案範例。    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_tw/wellarchitected/latest/framework/perf_process_culture_use_monitoring_solutions.html)
+  執行測試，來產生指標、確定流量模式、瓶頸和關鍵效能區域。以下是如何進行測試的一些範例：
  +  設定 [CloudWatch SyntheticCanary](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) 以程式設計方式使用 Linux Cron 任務或評分運算式，模擬以瀏覽器為基礎的使用者活動，以產生長期一致的指標。
  +  使用 [AWS 分散式負載測試](https://aws.amazon.com/solutions/implementations/distributed-load-testing-on-aws/)解決方案，來產生尖峰流量或以預期成長速率測試工作負載。
+  評估指標和遙測，來找出關鍵的效能領域。與您的團隊一起審核這些領域，討論監控和解決方案，以避免瓶頸。
+  進行效能改善的實驗，並透過資料來衡量這些變更。例如，可以使用 [CloudWatch Evidently](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Evidently.html) 測試對工作負載的新改進和效能影響。

## 資源
<a name="resources"></a>

 **相關文件：**
+ [re:Invent 2023 中 AWS Observability 的最新消息](https://aws.amazon.com/blogs/mt/whats-new-in-aws-observability-at-reinvent-2023/)
+  [Amazon 建置者資料中心](https://aws.amazon.com/builders-library) 
+  [X-Ray 文件](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html) 
+  [Amazon CloudWatch RUM](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-RUM.html) 
+  [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) 

 **相關影片：**
+ [AWS re:Invent 2023 – [發佈] 針對現代工作負載的應用程式監控](https://www.youtube.com/watch?v=T2TovTLje8w)
+ [AWS re:Invent 2023 – 實作應用程式可觀測性](https://www.youtube.com/watch?v=IcTcwUSwIs4)
+ [AWS re:Invent 2023 - 建立有效的可觀測性策略](https://www.youtube.com/watch?v=7PQv9eYCJW8)
+ [AWS Summit SF 2022 - 使用 AWS 獲得全堆疊可觀測性和應用程式監控](https://www.youtube.com/watch?v=or7uFFyHIX0)
+ [AWS re:Invent 2022 - AWS 優化：立即見效的可操作步驟](https://www.youtube.com/watch?v=0ifvNf2Tx3w)
+  [AWS re:Invent 2022 - Amazon 建置者資料中心：25 年 Amazon 卓越營運](https://www.youtube.com/watch?v=DSRhgBd_gtw) 
+ [AWS re:Invent 2022 - Amazon 如何使用更好的指標來提高網站效能](https://www.youtube.com/watch?v=_uaaCiyJCFA)
+  [使用 Amazon CloudWatch Synthetics 進行應用程式的視覺化監控](https://www.youtube.com/watch?v=_PCs-ucZz7E) 

 **相關範例：**
+  [使用 Amazon CloudWatch Synthetics 測量頁面載入時間](https://github.com/aws-samples/amazon-cloudwatch-synthetics-page-performance) 
+  [Amazon CloudWatch RUM Web 用戶端](https://github.com/aws-observability/aws-rum-web) 
+  [適用於 Python 的 X-Ray 開發套件](https://github.com/aws/aws-xray-sdk-python) 
+  [AWS 上的分散式負載測試](https://aws.amazon.com/solutions/implementations/distributed-load-testing-on-aws/) 

# PERF05-BP03 定義提高工作負載效能的程序
<a name="perf_process_culture_workload_performance"></a>

 定義一個程序，以在新的服務、設計模式、資源類型和組態可用時對其進行評估。例如，對新的執行個體方案執行現有的效能測試，以判斷其是否可能改善工作負載。

 **常見的反模式：**
+  您假設目前的架構是靜態的，且不會隨著時間而更新。
+  您會隨時間導入架構變更，而且無須指標佐證。

 **建立此最佳實務的優勢：**定義進行架構變更的程序後，您就能使用收集的資料，以隨著時間影響工作負載。

 **未建立此最佳實務時的曝險等級：**中 

## 實作指引
<a name="implementation-guidance"></a>

 工作負載的效能有一些關鍵限制。記錄這些內容，以便您知道哪種創新可以改善工作負載的效能。當新服務或技術可用時，請使用此資訊來找出緩解限制或瓶頸的方法。

 識別工作負載的關鍵效能限制。記錄工作負載的效能限制，讓您知道哪些類型的創新可能會改善工作負載的效能。

### 實作步驟
<a name="implementation-steps"></a>
+ **識別 KPI：**識別 [PERF05-BP01 建立用於測量工作負載運作狀態和效能的關鍵績效指標 (KPI)](perf_process_culture_establish_key_performance_indicators.md) 中所述的工作負載效能 KPI，以設立工作負載基準。
+ **實作監控：**使用 [AWS 可觀測性工具](https://docs.aws.amazon.com/wellarchitected/latest/management-and-governance-guide/aws-observability-tools.html)收集績效指標並衡量 KPI。
+ **執行分析：**執行深入分析，以找出工作負載中效能不佳的區域 (例如組態和應用程式的程式碼)，步驟請參閱 [PERF05-BP02 使用監控解決方案了解效能最關鍵的領域](perf_process_culture_use_monitoring_solutions.md)。使用分析和效能工具，來確定效能改進策略。
+ **驗證改進：**使用沙盒或生產前環境，來驗證改進策略的有效性。
+ **實作變更：**實作生產中的變更，並持續監控工作負載的效能。記錄改進項目並與利益相關者溝通這些變更。
+ **重新檢視和完善：**定期檢視您的績效改善程序，以找出需要提高的領域。

## 資源
<a name="resources"></a>

 **相關文件：**
+  [AWS 部落格](https://aws.amazon.com/blogs/) 
+  [AWS 最新消息](https://aws.amazon.com/new/?ref=wellarchitected) 
+  [AWS Skill Builder](https://explore.skillbuilder.aws/learn) 

 **相關影片：**
+ [AWS re:Invent 2022 - 提供可持續、高效能的架構](https://www.youtube.com/watch?v=FBc9hXQfat0)
+ [AWS re:Invent 2023 - 優化成本和效能並追蹤緩解措施的進度](https://www.youtube.com/watch?v=keAfy8f84E0)
+ [AWS re:Invent 2022 - AWS 優化：立即見效的可操作步驟](https://www.youtube.com/watch?v=0ifvNf2Tx3w)
+ [AWS re:Invent 2022 - 使用最佳實務指引來最佳化 AWS 工作負載](https://www.youtube.com/watch?v=t8yl1TrnuIk)

 **相關範例：**
+  [AWS Github](https://github.com/aws) 

# PERF05-BP04 Load 測試工作負載
<a name="perf_process_culture_load_test"></a>

 對工作負載執行負載測試，以確認它可以處理生產負載並識別任何效能瓶頸。

 **常見的反模式：**
+  可以對工作負載的個別部分進行負載測試，而非整個工作負載。
+  可以在與生產環境不同的基礎設施中進行負載測試。
+  您只對預期的 (而非超標) 負載進行負載測試，以協助預測未來可能發生問題的位置。
+  您可以在未諮詢 [Amazon 測試政策的情況下執行負載EC2測試](https://aws.amazon.com/ec2/testing/)，並提交模擬事件提交表單。這會導致您的測試無法執行，因為它看起來像事件 denial-of-service。

 **建立此最佳實務的優勢：**在負載測試過程中測量效能時，會顯示您將在負載增加到何種程度時受到影響。這可讓您能夠在工作負載受到影響之前預測所需的變更。

 **未建立此最佳實務時的曝險等級：**低 

## 實作指引
<a name="implementation-guidance"></a>

 雲端中的負載測試是在實際條件下，以預期的使用者負載來衡量雲端工作負載效能的程序。此程序包括佈建類似生產環境的雲端環境、使用負載測試工具產生負載，以及分析指標以評估工作負載處理實際負載的能力。必須使用生產資料的綜合或處理過的版本 (移除敏感或可識別身分的資訊) 執行負載測試。自動執行負載測試作為交付管道的一部分，並將結果與預先定義的KPIs閾值進行比較。此程序有助於您持續達到所需的效能。

### 實作步驟
<a name="implementation-steps"></a>
+ **定義測試目標：**確定您要評估的工作負載效能層面，例如輸送量和回應時間。
+ **選擇測試工具：**選擇並設定適合您工作負載的負載測試工具。
+ **設定您的環境：**根據生產環境設定測試環境。您可以使用 AWS 服務來執行生產規模環境，以測試您的架構。
+ **實作監控：**使用 [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) 等監控工具，收集架構中各項資源的指標。也可以收集和發布自訂指標。
+ **定義方案：**定義負載測試方案和參數 (如測試持續時間和使用者數量)。
+ **進行負載測試：**大規模執行測試方案。利用 AWS 雲端 來測試工作負載，以探索其無法擴展的位置，或它是否以非線性方式擴展。例如，使用 Spot 執行個體以低成本產生負載，並在生產中遇到瓶頸之前發現瓶頸。
+ **分析測試結果：**分析結果以找出效能瓶頸和需要改善的區域。
+ **記錄和分享調查結果：**記錄並報告調查結果和建議。與利益相關者分享此資訊，協助他們做出有關效能最佳化策略的明智決策。
+ **不斷反覆執行：**負載測試應定期執行，尤其是在系統更新變更之後。

## 資源
<a name="resources"></a>

 **相關文件：**
+  [Amazon CloudWatch RUM](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-RUM.html) 
+  [Amazon CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) 
+  [上的分散式負載測試 AWS](https://docs.aws.amazon.com/solutions/latest/distributed-load-testing-on-aws/welcome.html) 

 **相關影片：**
+ [AWS Summit ANZ 2023：透過 AWS 分散式負載測試，放心加速 ](https://www.youtube.com/watch?v=4J6lVqa6Yh8)
+ [AWS re：Invent 2022 - AWS 為前 1，000 萬使用者擴展 ](https://www.youtube.com/watch?v=yrP3M4_13QM)
+  [使用 AWS 解決方案解決：分散式負載測試](https://www.youtube.com/watch?v=Y-2rk0sSyOM) 
+ [AWS re：Invent 2021 - 透過使用 Amazon 的終端使用者洞察最佳化應用程式 CloudWatch RUM ](https://www.youtube.com/watch?v=NMaeujY9A9Y)
+  [Amazon CloudWatch Synthetics 示範](https://www.youtube.com/watch?v=hF3NM9j-u7I) 

 **相關範例：**
+  [上的分散式負載測試 AWS](https://aws.amazon.com/solutions/implementations/distributed-load-testing-on-aws/) 

# PERF05-BP05 使用自動化主動修復效能相關問題
<a name="perf_process_culture_automation_remediate_issues"></a>

 使用關鍵績效指標 (KPI) 搭配監控和提醒系統，主動處理效能相關的問題。

 **常見的反模式：**
+  您只讓操作人員有能力對工作負載進行操作變更。
+  您讓所有警示篩選到操作團隊，無須主動修復。

 **建立此最佳實務的優勢：**主動修復警示動作能夠讓支援人員專注在無法自動採取行動的項目上。這有助於操作人員無須疲於處理所有警示，而僅專注於關鍵警示。

 **未建立此最佳實務時的曝險等級：**低 

## 實作指引
<a name="implementation-guidance"></a>

 使用警示觸發自動化動作，盡可能修復問題。如果無法自動回應，則將警示上報給能夠回應的人員。例如，您可能有一個可以預測關鍵績效指標 (KPI) 預期值並在超過特定閾值時發出警示的系統，或者在 KPI 超出預期值時可以自動停止或回復部署的工具。

 實作可在工作負載執行時提供效能可見度的程序。建置監控儀表板並建立效能預期的基準規範，以確定工作負載是否以最佳狀態執行。

### 實作步驟
<a name="implementation-steps"></a>
+ **識別修復工作流程：**識別並了解可自動修復的效能問題。使用 AWS 監控解決方案 (例如 [Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html) 或 AWS X-Ray)，協助您更好地了解問題的根本原因。
+ **定義自動化程序：**制定可用來自動修正問題的逐步修復程序。
+ **設定啟動事件：**將事件設定為自動啟動修復程序。例如，您可以定義觸發程式，在執行個體達到特定 CPU 使用率閾值時自動重新啟動執行個體。
+ **自動化修復：**使用 AWS 服務和技術，自動化修復程序。例如，[AWS Systems Manager Automation](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-automation.html) 提供安全且可擴展的方式，來自動化修復程序。如果變更無法成功解決問題，則請務必使用自我修復邏輯來還原變更。
+ **測試工作流程：**在生產前環境中測試自動修復程序。
+ **實作工作流程：**在生產環境中實作自動修復。
+ **制定說明手冊：**制定並記錄說明手冊，其中概述了補救計劃的步驟，包括啟動事件、補救邏輯和採取的動作。確保培訓利益相關者，以協助他們有效地應對自動補救事件。
+ **審查和完善：**定期評估自動補救工作流程的有效性。如有必要，請調整啟動事件和補救邏輯。

## 資源
<a name="resources"></a>

 **相關文件：**
+  [CloudWatch 文件](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html) 
+  [監控、日誌記錄和效能 AWS Partner Network 合作夥伴](https://aws.amazon.com/devops/partner-solutions/#_Monitoring.2C_Logging.2C_and_Performance) 
+  [X-Ray 文件](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html) 
+  [使用 CloudWatch 中的警示和警示動作](https://docs.aws.amazon.com/sdk-for-go/v1/developer-guide/cw-example-using-alarm-actions.html) 
+ [建立雲端自動化實務以實現卓越營運：AWS Managed Services 的最佳實務](https://aws.amazon.com/blogs/mt/build-a-cloud-automation-practice-for-operational-excellence-best-practices-from-aws-managed-services/)
+ [使用自動表格優化來自動調整您的 Amazon Redshift 效能](https://aws.amazon.com/blogs/big-data/automate-your-amazon-redshift-performance-tuning-with-automatic-table-optimization/)

 **相關影片：**
+ [AWS re:Invent 2023 - 自動擴展、補救和智慧自我修復的策略](https://www.youtube.com/watch?v=nlGyIa3UQYU)
+ [AWS re:Invent 2023 – [發佈] 針對現代工作負載的應用程式監控](https://www.youtube.com/watch?v=T2TovTLje8w)
+ [AWS re:Invent 2023 – 實作應用程式可觀測性](https://www.youtube.com/watch?v=IcTcwUSwIs4)
+  [AWS re:Invent 2021 - 智慧自動化雲端作業](https://www.youtube.com/watch?v=m0S8eAF0l54) 
+  [AWS re:Invent 2022 - 在 AWS 環境中大規模設定控制項](https://www.youtube.com/watch?v=NkE9_okfPG8) 
+  [AWS re:Invent 2022 - 使用 AWS 自動化修補程式管理和合規性](https://www.youtube.com/watch?v=gL3baXQJvc0) 
+  [AWS re:Invent 2022 - Amazon 如何使用更好的指標來提高網站效能](https://www.youtube.com/watch?v=_uaaCiyJCFA&ab_channel=AWSEvents) 
+ [AWS re:Invent 2023 - 減輕負擔：使用 Amazon RDS 診斷和解決效能問題](https://www.youtube.com/watch?v=Ulj88e5Aqzg)
+ [AWS re:Invent 2021 -\$1最新發佈\$1 使用 Amazon DevOps Guru 自動偵測並解決問題](https://www.youtube.com/watch?v=iwQNQHwoXfk)
+ [AWS re:Invent 2023 - 將操作集中化](https://www.youtube.com/watch?v=9-RBjmhDdaM)

 **相關範例：**
+  [CloudWatch Logs 自訂警示](https://github.com/awslabs/cloudwatch-logs-customize-alarms) 

# PERF05-BP06 保留工作負載和服務 up-to-date
<a name="perf_process_culture_keep_workload_and_services_up_to_date"></a>

 繼續使用 up-to-date新的雲端服務和功能，以採用有效率的功能、移除問題，並改善工作負載的整體效能效率。

 **常見的反模式：**
+  假設您目前的架構為靜態，且不會隨著時間的推移而更新。
+  您沒有任何系統或定期規律可評估更新的軟體與套件是否與您的工作負載相容。

 **建立此最佳實務的優點：**透過建立程序以持續 up-to-date使用新服務和產品，您可以採用新功能和功能、解決問題並改善工作負載效能。

 **未建立此最佳實務時的曝險等級：**低 

## 實作指引
<a name="implementation-guidance"></a>

 在新服務、設計模式和產品功能推出時，評估提升效能的方法。透過評估、內部討論或外部分析，確定哪些方法可以提高工作負載效能或效率。定義程序來評估與工作負載相關的更新、新功能和服務。例如，建立使用新技術的概念證明或與內部小組協商。嘗試新的想法或服務時，執行效能測試以衡量其對工作負載效能的影響。

## 實作步驟
<a name="implementation-steps"></a>
+ **清查工作負載：**清查工作負載軟體和架構，並識別需要更新的元件。
+ **識別更新來源：**找出與工作負載組成部分相關的新聞和更新來源。例如，您可以訂閱符合您工作負載元件的產品[的 AWS 部落格最新消息](https://aws.amazon.com/new/)。您可以訂閱RSS摘要或管理您的[電子郵件訂閱 ](https://pages.awscloud.com/communication-preferences.html)。
+ **定義更新排程：**定義排程以評估工作負載的新服務和特徵。
  +  您可以使用 [AWS Systems Manager Inventory](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-inventory.html) 從您的 Amazon EC2執行個體收集作業系統 （OS）、應用程式和執行個體中繼資料，並快速了解哪些執行個體正在執行軟體政策所需的軟體和組態，以及哪些執行個體需要更新。
+ **評估最新更新：**了解如何更新工作負載的元件。利用雲端的靈活性快速測試新特徵對工作負載有何改善，藉以提高效能效率。
+ **使用自動化：**使用更新程序自動化，以減少部署新功能的工作量，並避免手動程序引起的錯誤。
  +  您可以使用 [CI/CD](https://aws.amazon.com/blogs/devops/complete-ci-cd-with-aws-codecommit-aws-codebuild-aws-codedeploy-and-aws-codepipeline/) 自動更新 AMIs、容器映像，以及與雲端應用程式相關的其他成品。
  +  可以使用 [AWS Systems Manager Patch Manager](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-patch.html) 之類的工具來自動化系統更新流程，並使用 [AWS Systems Manager Maintenance Windows](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-maintenance.html) 來排程活動。
+ **記錄過程：**記錄用於評估更新和新服務的過程。向擁有者提供所需的時間和空間，來研究、測試、試驗和驗證更新及新服務。參考文件化的業務需求KPIs，並協助排定哪些更新將對業務產生正面影響的優先順序。

## 資源
<a name="resources"></a>

 **相關文件：**
+  [AWS 部落格](https://aws.amazon.com/blogs/) 
+  [新功能 AWS](https://aws.amazon.com/new/?ref=wellarchitected) 
+ [ 使用自動化映像建置器管道實作 up-to-dateEC2映像 ](https://aws.amazon.com/blogs/compute/implementing-up-to-date-images-with-automated-ec2-image-builder-pipelines/)

 **相關影片：**
+ [AWS re：Inforce 2022 - 使用 自動化修補程式管理和合規 AWS](https://www.youtube.com/watch?v=gL3baXQJvc0)
+ [ 所有事項修補程式： AWS Systems Manager \$1 AWS Events ](https://www.youtube.com/watch?v=PhIiVsCEBu8)

 **相關範例：**
+ [庫存和修補程式管理](https://mng.workshop.aws/ssm/use-case-labs/inventory_patch_management.html)
+ [一個可觀測性研討會](https://catalog.workshops.aws/observability/en-US)

# PERF05-BP07 定期審查指標
<a name="perf_process_culture_review_metrics"></a>

 作為日常維護的一部分或對事件或事故的回應，審查收集了哪些指標。透過這些審查來識別哪些指標是解決問題的關鍵，以及哪些其他指標 (如果被追蹤) 有助於識別、解決或預防問題。

 **常見的反模式：**
+  您讓指標長時間持續處於警示狀態。
+  您建立自動化系統無法採取行動的警示。

 **建立此最佳實務的優勢：**持續審查正在收集的指標，以確認指標正確識別、處理或防止問題發生。如果讓指標長時間持續處於警示狀態，指標也會變得過時。

 **未建立此最佳實務時的曝險等級：**中 

## 實作指引
<a name="implementation-guidance"></a>

 不斷改進指標收集和監控。作為對事故或事件的回應的一部分，評估哪些指標有助於解決問題，哪些指標可以幫助解決問題但未被追蹤。使用此方法提高所收集指標的品質，從而可以防止事故發生或更快地解決將來的事故。

 作為對事故或事件的回應的一部分，評估哪些指標有助於解決問題，哪些指標可以幫助解決問題但未被追蹤。使用此方法提高所收集指標的品質，從而可以防止事故發生或更快地解決將來的事故。

### 實作步驟
<a name="implementation-steps"></a>
+ **定義指標：**定義與您的工作負載目標一致的關鍵效能指標以進行監控，包括回應時間和資源使用率等指標。
+ **建立基準：**設定各指標的基準和期望值。基準應提供參考點以識別偏差或異常。
+ **設定規律：**設定規律 (例如每週或每月一次) 以審核重要指標。
+ **識別效能問題：**每次審查期間都會評估趨勢，以及與基準值的偏差。查看是否有任何效能瓶頸或異常情況。對於已確認的問題，請展開深入根本原因分析，以了解問題背後的主要原因。
+ **識別修正動作：**使用您的分析來識別修正動作。這可能包括參數調整、修正錯誤和擴展資源。
+ **記錄調查結果：**記錄您的調查結果，包括已識別的問題、根本原因和修正動作。
+ **反覆執行並改善：**持續評估並改善指標審核過程。使用從以前的審核中學到的經驗教訓，隨著時間的推移提升程序。

## 資源
<a name="resources"></a>

 **相關文件：**
+  [CloudWatch 文件](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html) 
+  [使用 CloudWatch 代理程式從 Amazon EC2 執行個體和內部部署伺服器收集指標和日誌](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html?ref=wellarchitected) 
+ [使用 CloudWatch Metrics Insights 查詢您的指標](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/query_with_cloudwatch-metrics-insights.html)
+  [監控、日誌記錄和效能 AWS Partner Network 合作夥伴](https://aws.amazon.com/devops/partner-solutions/#_Monitoring.2C_Logging.2C_and_Performance) 
+  [X-Ray 文件](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html) 

 **相關影片：**
+  [AWS re:Invent 2022 - 在 AWS 環境中大規模設定控制項](https://www.youtube.com/watch?v=NkE9_okfPG8) 
+  [AWS re:Invent 2022 - Amazon 如何使用更好的指標來提高網站效能](https://www.youtube.com/watch?v=_uaaCiyJCFA&ab_channel=AWSEvents) 
+ [AWS re:Invent 2023 - 建立有效的可觀測性策略](https://www.youtube.com/watch?v=7PQv9eYCJW8)
+ [AWS Summit SF 2022 - 使用 AWS 獲得全堆疊可觀測性和應用程式監控](https://www.youtube.com/watch?v=or7uFFyHIX0)
+ [AWS re:Invent 2023 - 減輕負擔：使用 Amazon RDS 診斷和解決效能問題](https://www.youtube.com/watch?v=Ulj88e5Aqzg)

 **相關範例：**
+  [使用 Quick 建立儀表板](https://github.com/aws-samples/amazon-quicksight-sdk-proserve) 
+ [CloudWatch 儀表板](https://catalog.us-east-1.prod.workshops.aws/workshops/a8e9c6a6-0ba9-48a7-a90d-378a440ab8ba/en-US/300-cloudwatch/340-cloudwatch-dashboards)