# 營運面向：運作狀態和可用性
<a name="operations-perspective"></a>

*營運*面向側重於確保依與業務利害關係人商定的等級提供雲端服務。自動化和最佳化作業將可讓您有效擴展，同時提高工作負載的可靠性。此面向包含下圖所示的九項能力。共同利害關係人包括基礎設施和營運部門主管、網站可靠性工程師和資訊科技服務經理。

![AWS CAF 營運面向能力說明圖。](http://docs.aws.amazon.com/zh_tw/whitepapers/latest/overview-aws-cloud-adoption-framework/images/cloud-adoption-10.png)


*AWS CAF 營運面向功能*
+ **可觀察性** – 從基礎設施及應用程式資料中取得可行的洞見。當您以[雲端速度和規模](https://aws.amazon.com/products/management-and-governance/use-cases/monitoring-and-observability/?whats-new-cards.sort-by=item.additionalFields.postDateTime&whats-new-cards.sort-order=desc&blog-posts-cards.sort-by=item.additionalFields.createdDate&blog-posts-cards.sort-order=desc)作業時，您需要能夠在問題浮現時立即察覺，最好是在干擾客戶體驗之前發現這些問題。開發必要的[遙測記錄](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/design-telemetry.html) (日誌、指標和追蹤)，以了解工作負載的[內部狀態](https://docs.aws.amazon.com/wellarchitected/latest/management-and-governance-lens/observability.html)和運作狀態。監控應用程式端點，評估對最終使用者的影響，並在測量值超過閾值時產生提醒。

  使用[綜合監控](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html)建立 Canary (這是按排程執行的可設定指令碼)，以監控您的端點和 API。執行[追蹤](https://aws.amazon.com/xray/)，以追蹤這些請求在整個應用程式中的傳輸路線，並找出瓶頸或效能問題。利用指標和記錄[深入了解](https://docs.aws.amazon.com/wellarchitected/latest/management-and-governance-lens/observability.html)資源、伺服器、資料庫和網路。設定時間序列資料的即時分析，以了解影響效能的原因。將資料集中在單一[儀表板](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)中，為您提供有關工作負載及其效能重要資訊的[整合檢視](https://aws.amazon.com/opensearch-service/?nc=bc&pg=rs)。
+ **事件管理 (AIOps)** – 偵測事件、評估其潛在影響並判斷適當的控制動作。能夠過濾雜訊、專注於優先事件、預測資源即將耗盡的情況、自動產生提醒和事件，以及識別可能的原因和補救措施，將有助於您改進事件偵測和回應時間。建立事件儲存模式，利用[機器學習](https://aws.amazon.com/blogs/devops/gaining-operational-insights-with-aiops-using-amazon-devops-guru/) ([AIOps](https://aws.amazon.com/devops-guru/)) 自動建立事件關聯、偵測異常及判定因果關係。與[雲端服務](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html)和第三方工具整合，包括您的事件管理系統和流程。自動回應事件，減少因手動流程造成錯誤，並確保快速一致的回應。
+ **事件和問題管理** – 快速還原服務營運，並將對業務的不利影響降至最低。經由雲端採用，服務問題和應用程式運作狀態問題的回應流程得以高度自動化，從而拉長服務正常運行時間。隨著您轉向更為分散的營運模式，簡化相關團隊、工具和流程之間的互動，將有助於加快解決重大及/或複雜事件的速度。在 Runbook 中定義向上呈報路徑，包括觸發向上呈報的條件以及向上呈報的程序。

  實行事件反應[演習](https://wa.aws.amazon.com/wellarchitected/2020-07-02T19-33-23/wat.concept.gameday.en.html)，並將學到的經驗納入 Runbook。識別事件模式以判斷問題和修正措施。利用 [Chatbot](https://aws.amazon.com/chatbot/) 和協作工具連接營運團隊、工具和工作流程。利用不指責的[事件後分析](https://docs.aws.amazon.com/incident-manager/latest/userguide/analysis.html)，確定導致事件的因素，並制定相應的行動計劃。
+ **變更和版本管理** – 引入及修改工作負載，同時將生產環境風險降至最低。傳統的版本管理流程很複雜，部署速度緩慢又難以轉返。雲端採用讓您有機會利用 CI/CD 技術快速管理版本和轉返。建立允許自動核准[工作流程](https://docs.aws.amazon.com/systems-manager/latest/userguide/change-manager.html)的[變更流程](https://docs.aws.amazon.com/wellarchitected/latest/reliability-pillar/change-management.html)，使其與[雲端敏捷性](https://docs.aws.amazon.com/whitepapers/latest/change-management-in-the-cloud/change-management-in-the-cloud.html)保持一致。使用部署管理系統來追蹤和實作變更。透過[頻繁](https://docs.aws.amazon.com/wellarchitected/latest/framework/oe-prepare.html)、細微和可逆的變更來縮小變更範圍。測試變更並在[生命週期所有階段](https://aws.amazon.com/devops/what-is-devops/)驗證結果，以將失敗部署的風險和影響降至最低。當無法實現結果時，自動還原到先前的良好狀態，以最大限度縮短還原時間，並減少由手動程序引起的錯誤。
+ **效能和容量管理** – 監控工作負載效能，並確保容量滿足當下和未來的需求。雖然雲端容量幾乎無限制，但[服務配額](https://docs.aws.amazon.com/wellarchitected/latest/reliability-pillar/manage-service-quotas-and-constraints.html)、[容量預留](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ec2-capacity-reservations.html)和資源約束會限制實際的工作負載容量。您需要[了解](https://aws.amazon.com/premiumsupport/technology/trusted-advisor/)這種容量約束，才能有效加以[管理](https://docs.aws.amazon.com/wellarchitected/latest/reliability-pillar/manage-service-quotas-and-constraints.html)。辨明主要利害關係人並議定中長期目標、範圍和指標。收集及處理效能資料，並定期針對目標[檢閱](https://aws.amazon.com/blogs/opensource/the-wheel/)及報告效能。定期評估新技術以提高效能，並酌情建議變更目標和指標。監控工作負載的利用率，建立未來的比較基準，並視需要確定擴展容量的閾值。分析一段時間的需求，以確保容量能符合季節性趨勢和波動的營運條件。
+ **組態管理** – 維護準確且完整的一段時間內所有雲端工作負載、其關係及組態變化記錄。若不以有效方式管理，雲端資源佈建的動態和虛擬性質會造成組態偏移。定義並強制執行可將商業屬性覆蓋到雲端使用方式的[標記結構描述](https://d1.awsstatic.com/whitepapers/aws-tagging-best-practices.pdf)，然後利用標籤按照技術、業務和安全層面安排資源。指定強制標籤並透過政策強制執行[合規性](https://docs.aws.amazon.com/config/latest/developerguide/evaluate-config.html)。利用 [Infrastructure as Code](https://aws.amazon.com/cloudformation/) (IaC) 和組態管理[工具](https://aws.amazon.com/opsworks/)進行資源佈建和[生命週期管理](https://docs.aws.amazon.com/wellarchitected/latest/management-and-governance-lens/servicemanagement.html)。建立組態[基準](https://docs.aws.amazon.com/config/latest/developerguide/WhatIsConfig.html)並透過[版本控制](https://aws.amazon.com/devops/source-control/)加以維護。
+ **修補程式管理** – 以系統化方式分配及套用軟體更新。軟體更新可解決新出現的安全漏洞、修復錯誤，並引入新功能。[管理修補程式](https://docs.aws.amazon.com/prescriptive-guidance/latest/patch-management-hybrid-cloud/overview.html)的系統化方法會確保您能從最新的更新獲益，同時將生產環境風險降至最低。在指定的[維護時段](https://docs.aws.amazon.com/systems-manager/latest/userguide/sysman-patch-mw-console.html)內[套用](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-patch.html)重要更新，並儘快套用重大安全性更新。提前通知使用者即將進行之更新的詳細資訊，並允許使用者在有其他緩解控制措施可用時延遲修補程式。先更新機器映像和測試修補程式，再發佈到生產環境。為確保修補過程中的持續可用性，請考慮為每個可用區域 (AZ) 和環境設定不同的維護時段。定期審查修補程式的合規性，並提醒不符合規範的團隊套用必要的更新。
+ **可用性和持續性管理** – 確保商業重大資訊、應用程式和服務的可用性。建置雲端[備份](https://aws.amazon.com/backup/?whats-new-cards.sort-by=item.additionalFields.postDateTime&whats-new-cards.sort-order=desc)解決方案需要仔細考慮現有的技術投資、恢復目標和可用資源。[災難](https://docs.aws.amazon.com/whitepapers/latest/disaster-recovery-workloads-on-aws/disaster-recovery-workloads-on-aws.html)和安全事件後的及時[還原](https://aws.amazon.com/backup-restore/)有助於保持系統可用性和[業務持續性](https://docs.aws.amazon.com/whitepapers/latest/disaster-recovery-workloads-on-aws/business-continuity-plan-bcp.html)。根據定義的排程備份資料和文件。

  在業務持續性計劃之下，制定災難復原計劃。確定每個工作負載不同災難情境下的威脅、風險、影響和成本，並據以指定復原時間點目標 (RTO) 和復原點目標 (RPO)。利用多可用區域或多區域架構，實作您選擇的災難復原[策略](https://docs.aws.amazon.com/whitepapers/latest/disaster-recovery-workloads-on-aws/disaster-recovery-options-in-the-cloud.html)。考慮利用[混沌工程](https://aws.amazon.com/fis/)，透過對照實驗，改善復原力和效能。定期審查和測試您的計劃，根據習得的經驗調整方法。
+ **應用程式管理** – 使用單一虛擬管理平台調查及修復應用程式問題。將應用程式資料彙總到[單一管理主控台](https://aws.amazon.com/blogs/aws/new-aws-systems-manager-consolidates-application-management/)，可以簡化營運監督，並透過降低切換不同管理工具環境的需求，加快修復應用程式問題。

  與其他營運和管理系統[整合](https://docs.aws.amazon.com/systems-manager/latest/userguide/application-manager-getting-started-related-services.html) (例如應用程式組合管理和 CMDB)，將發現應用程式元件和資源的流程[自動化](https://docs.aws.amazon.com/systems-manager/latest/userguide/application-manager.html)，並將應用程式資料合併到單一管理控制台中。納入軟體元件和基礎設施資源，並說明不同的環境，如開發、預備和生產。為更快、更一致地修復作業問題，請考慮將 [Runbook](https://docs.aws.amazon.com/systems-manager/latest/userguide/application-manager-working-runbooks.html) 自動化。