準備
要為卓越營運做好準備,您必須了解您的工作負載及其預期行為。然後,您就能將其設計出來,以了解它們的狀態並建置可提供支援的程序。
設計您的工作負載,使其提供必要資訊,讓您了解所有元件的內部狀態 (例如,指標、日誌、事件和追蹤),以支援可觀測性和調查問題。可觀測性不僅是單純的監控,還可根據系統的外部輸出全面了解系統的內部運作狀況。以指標、日誌和追蹤為根基,可觀測性提供了系統行換動態的洞見。有效的可觀測性能夠讓團隊辨別模式、異常情況和趨勢,以便主動解決潛在問題並維持最佳的系統運作狀態。確定關鍵績效指標 (KPI) 至關重要,可確保監控活動與業務目標保持一致。這種一致性可確保團隊使用真正重要的指標來做出資料驅動的決策,進而最佳化系統效能和業務成果。此外,可觀測性使得企業能夠化被動為主動。團隊能夠了解系統內的因果關係,預測並預防問題,而不只是被動回應問題。隨著工作負載的演進,務必重新檢視並改進可觀測性策略,以保持相關性和有效性。
採用的方法需能夠改善變更發揮作用的流程,並實現重構、快速提供品質意見回饋,以及修復錯誤。這會加快有助益的變更進入生產環境的速度、限制部署問題,並且快速識別和修復部署活動所導致或在您的環境中所發現的問題。
採用可快速提供品質意見回饋,並從成果不盡理想的改變中快速復原的方法。使用這些實務可緩解部署變更所帶來問題的影響。為變更失敗做好規劃,以便在必要時能夠快速回應,同時測試並驗證所做變更。了解環境中的計劃內活動,以便管理會影響計劃內活動的變更風險。強調頻繁、細微、可逆的變更,以限制變更範圍。透過回復變更,可以更快進行疑難排解並加快修復速度。這也表示您從有價值變更中受益的頻率會提高。
評估工作負載、流程、程序及人員的營運準備度,以了解與工作負載相關的營運風險。使用一致的程序 (包括手動或自動檢查清單) 來獲悉工作負載或變更執行就緒的時間。這樣也有助於尋找您必須制定計畫以解決問題的任何領域。具備可記錄例行活動的執行手冊,以及可指引問題解決程序的程序手冊。了解收益和風險,以做出明智決策,讓變更順利進入生產環境。
AWS 可讓您以程式碼的形式檢視您的整個工作負載 (應用程式、基礎設施、原則、管控和營運)。這表示您可以將用於應用程式程式碼的相同工程規則套用到堆疊的每個元素,並在團隊或組織之間分享這些元素,以擴大開發工作的優勢。在雲端以程式碼執行營運,並利用安全進行試驗的能力,開發工作負載、營運程序以及實務失敗案例。使用 CloudFormation 可讓您擁有一致的範本化沙盒開發、測試和生產環境,同時還能提高營運控制等級。
下列問題著重於卓越營運方面的這些考量。
| OPS 4: How do you implement observability in your workload? |
|---|
| Implement observability in your workload so that you can understand its state and make data-driven decisions based on business requirements. |
| OPS 5: How do you reduce defects, ease remediation, and improve flow into production? |
|---|
| Adopt approaches that improve flow of changes into production that achieve refactoring fast feedback on quality, and bug fixing. These accelerate beneficial changes entering production, limit issues deployed, and achieve rapid identification and remediation of issues introduced through deployment activities. |
| OPS 6: How do you mitigate deployment risks? |
|---|
| Adopt approaches that provide fast feedback on quality and achieve rapid recovery from changes that do not have desired outcomes. Using these practices mitigates the impact of issues introduced through the deployment of changes. |
| OPS 7: How do you know that you are ready to support a workload? |
|---|
| Evaluate the operational readiness of your workload, processes and procedures, and personnel to understand the operational risks related to your workload. |
對以程式碼形式實作營運活動進行投資,從而最大程度地提高營運人員的生產力,將錯誤率降至最低以及實現自動回應。使用「事前剖析」可預測失敗並適時建立程序。依照一致的標記策略,使用資源標籤和 AWS Resource Groups 來套用中繼資料,以識別您的資源。標記您的資源,以用於組織、成本會計、存取控制,以及將自動執行營運活動設為目標。採用可利用雲端彈性的部署實務,以促進開發活動和系統的預部署,進而加快實作速度。當您變更您用於評估工作負載的檢查清單時,請計劃如何處理不再合規的即時系統。