

# 營運
<a name="oe-operate"></a>

 我們可根據業務和客戶成果的實現情況，衡量是否成功運作工作負載。定義預期成果，確定如何衡量成功，並識別可用於這些計算的指標，以判斷您的工作負載和營運是否成功。營運運作狀態包括工作負載的運作狀態，以及為支援工作負載所執行營運活動 (例如，部署和事件回應) 的運作狀態和成功情況。建立指標基準以便進行改善、調查和介入；收集並分析指標；然後，驗證您對營運成功及其隨著時間的變化情況的理解。使用收集的指標來確定您是否滿足客戶和業務需求，並識別有待改善的領域。 

 要實現卓越營運，必須有效地管理營運事件。這適用於計劃和非計劃中的營運事件。使用已建立的執行手冊處理已充分了解的事件，並使用程序手冊協助調查和解決問題。根據事件對業務和客戶的影響來確定回應事件的優先順序。確保如因回應事件而發出提醒，則將由明確識別的擁有者執行關聯程序。事先定義解決事件所需的人員，並納入向上呈報觸發條件，以在必要時根據緊迫性和影響力，在其中新增額外的參與人員。識別並邀請具有權限的個人來決定行動方案，該方案將受到先前未解決的事件回應的業務影響。 

 透過針對目標受眾 (例如，客戶、業務、開發人員、營運) 量身定制的儀表板和通知來傳達工作負載的運行狀態，以便他們能採取適當的動作，進而管理他們的期望並在恢復正常營運時得到通知。 

 在 AWS 中，您可以產生從工作負載或以原生方式從 AWS 收集的指標的儀表板視圖。您可以利用 CloudWatch 或第三方應用程式，來彙總和顯示營運活動的業務、工作負載和營運等級視圖。AWS 可透過記錄功能 (包括 AWS X-Ray 、CloudWatch、CloudTrail 和 VPC Flow Logs) 提供工作負載洞見，從而能夠識別工作負載問題，以支援根本原因分析和修復。 

 下列問題著重於卓越營運方面的這些考量。 


| OPS 8：您如何了解工作負載的運作狀態？ | 
| --- | 
|  定義、擷取和分析工作負載指標，掌握工作負載事件，以便採取適當行動。 | 


| OPS 9：您如何了解營運狀況？ | 
| --- | 
|  定義、擷取和分析營運指標，掌握營運事件，以便採取適當行動。 | 


| OPS 10：您如何管理工作負載和營運事件？ | 
| --- | 
|  準備和驗證回應事件的程序，大幅降低工作負載中斷情形。 | 

 您收集的所有指標都應該符合業務需求及其支援的結果。開發針對已充分了解之事件的指令碼式回應，並自動化其效能以回應事件辨識。 