操作可觀測性

需要可觀測性，才能獲得對您環境效能的可行洞見，並協助您偵測和調查問題。它也有次要目的，可讓您定義和測量關鍵績效指標 (KPIs) 和服務水準目標 SLOs)，例如執行時間。對於大多數組織而言，重要的操作 KPIs是偵測的平均時間 (MTTD) 和從事件復原的平均時間 (MTTR)。

在整個可觀測性中，內容很重要，因為會收集資料，然後收集關聯的標籤。無論您專注於哪個服務、應用程式或應用程式層，都可以篩選和分析該特定資料集。標籤可用來自動加入 CloudWatch 警示，以便在違反特定指標閾值時提醒適當的團隊。例如，標籤索引鍵example-inc:ops:alarm-tag及其值可能表示建立 CloudWatch 警示。使用標籤為 Amazon EC2 執行個體建立和維護 Amazon CloudWatch 警示Amazon EC2中會說明示範此作法的解決方案。

設定太多警示可以輕鬆建立警示風暴 - 當大量警示或通知快速壓倒運算子，並在運算子手動分類和排定個別警示的優先順序時降低其整體效率。警示的其他內容可以標籤形式提供，這表示規則可以在 Amazon EventBridge 中定義，以協助確保將焦點放在上游問題，而不是下游相依性。

營運與 DevOps 的角色通常被忽略，但對於許多組織而言，中央營運團隊仍然在正常營業時間之外提供重要的第一個回應。（如需此模型的詳細資訊，請參閱卓越營運白皮書。) 與擁有工作負載的 DevOps 團隊不同，他們通常沒有相同的知識深度，因此標籤在儀表板和警示中提供的內容，可以引導他們找到問題的正確 Runbook，或啟動自動化 Runbook （請參閱部落格文章使用自動化 Amazon CloudWatch 警示 AWS Systems Manager)。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

修補

資料安全、風險管理和存取控制的標籤