選擇 AWS 監控和可觀測性服務 - 選擇 AWS 監控和可觀測性服務

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

選擇 AWS 監控和可觀測性服務

採取第一步

用途

協助判斷哪些 AWS 監控和可觀測性服務最適合您的組織。

上次更新

2024 年 1 月 12 日

涵蓋的服務

簡介

監控和可觀測性是確保雲端工作負載和資料可用性、效能、可靠性和安全性的關鍵元件。

  • 監控涉及系統性的資料收集和分析,例如指標、日誌和追蹤,以追蹤雲端資源的運作狀態和效率,以及支援被動事件管理。

  • 可觀測性著重於透過動態的即時洞見來了解系統的內部狀態,以便主動識別和解決問題。

AWS 提供監控和可觀測性的各種工具和服務。它們可用來收集資料、分析指標,以及建立警示來通知您問題。此外,他們可以提供日誌和指標,讓您用來識別問題的根本原因並進行疑難排解。

這些服務與其他超過 120 個 AWS 服務 (包括 Amazon EC2、Amazon EKS、Amazon ECS、Lambda 和 Amazon S3) 和 合作夥伴整合,並與各種第三方可觀測性和雲端管理工具整合,這些工具使用近乎即時的 AWS原生遙測饋送。

本指南將協助您選擇最適合您需求和組織的 AWS 監控和可觀測性服務和工具。

在他的 re:Invent 2023 簡報中,全球資深 AWS 專家 Toshal Dudhwala 概述了如何建置可觀測性策略。

了解

為了根據您的需求選擇正確的 AWS 監控和可觀測性工具,首先了解可用的選項範圍以及主要服務如何結合在一起可能會有所幫助。

顯示 AWS 監控和可觀測性可用選項的圖表

從三個關鍵資料來源開始:日誌、指標和追蹤。這些來源的資料可以使用 Amazon CloudWatch AWS X-Ray或 AWS Distro for OpenTelemetry (ADOT) 代理程式來取用。

以下是您可以使用每個資料收集來源的時間:

  • 使用 Amazon CloudWatch 從您自己的應用程式收集自訂指標,以監控操作效能、疑難排解問題和發現趨勢。您也可以使用 CloudWatch 代理程式來收集日誌、指標和追蹤。此外,您可以使用開放原始碼工具,例如 Fluent D 或 FluentBit 來收集日誌並將其傳送至 CloudWatch 日誌。

  • 使用 AWS X-Ray 跨多個應用程式和系統執行分散式追蹤,以協助尋找系統中的延遲,並將其設為改善目標。您可以使用 CloudWatch 代理程式收集追蹤並將其傳送至 X-Ray。

  • 使用 AWS Distro for OpenTelemetry 收集指標和追蹤。

檢測

AWS 監控和可觀測性服務有兩種主要的檢測類別: AWS Native Services 和 Open Source Managed Services。

  • AWS 原生服務包括 Amazon CloudWatch 和 AWS X-Ray。CloudWatch 提供 Container InsightsLambda InsightsContributor InsightsApplication Insights 的這些主要功能,這有助於您如何將資料脈絡化以進行洞見和分析。

  • 開放原始碼受管服務包括 Amazon Managed Service for Prometheus (以熱門 Prometheus 開放原始碼監控和警示解決方案為基礎並與之相容的受管監控服務)、Amazon OpenSearch Service 和 AWS Distro for OpenTelemetry (不僅支援 AWS X-Ray,還支援 Jaeger 和 Zipkin 追蹤)。

視覺化和分析

您可以使用 Amazon CloudWatch Service MapAWS X-Ray 追蹤地圖、Amazon Managed Grafana 和 Amazon CloudWatch Logs Insights 來視覺化和分析您透過 AWS 這些服務收集和擷取的資料。

其他服務

其他對監控和可觀測性重要的服務包括:

  • AWS Config 提供 中資源組態的詳細檢視 AWS 帳戶。此檢視包含資源與資源過去組態之間的關係,因此您可以查看資源的關係和組態如何隨時間變化。如果您使用的是 AWS Config 規則, 會 AWS Config 評估所需設定的資源組態。

  • AWS CloudTrail 透過記錄使用者、角色 AWS 或服務採取的動作事件,協助您啟用營運和風險稽核、控管和合規。使用者、角色或服務採取的動作 AWS 會在 CloudTrail 中記錄為事件。事件包括在 中採取的動作 AWS Management Console AWS Command Line Interface,以及 AWS SDKs和 APIs。

此外,您可以從一系列機器學習和分析服務中進行選擇,以進一步受益於監控和可觀測性資料。

考慮

在 選擇正確的監控和可觀測性服務 AWS 取決於您的特定需求和使用案例。以下是做出決策時需要考慮的一些條件。

Monitoring service capabilities

考慮服務是否提供一組完整的工具,其中包含指標、日誌和追蹤。指標提供系統效能的量化資料、日誌提供詳細的事件資訊,而追蹤可讓您追蹤整個基礎設施的交易。

同時評估服務是否支援各種資料類型和格式。此外,請尋找進階功能,例如異常偵測、機器學習驅動的洞見,以及關聯不同來源資料的能力。全方位的解決方案應可讓您全面了解 AWS 環境,協助有效率地進行故障診斷、最佳化效能和主動解決問題。

服務功能越多樣化和整合,您就越能深入了解您的應用程式和基礎設施。如需服務功能的詳細資訊,請參閱 AWS 管理與控管雲端環境指南 ( Well-Architected Framework 的一部分) 中的可觀測性一節。 AWS

Ease of integration

評估服務如何與您現有的 AWS 基礎設施、應用程式和部署程序無縫整合。

尋找與您組織使用的熱門程式設計語言、架構和第三方工具的相容性。同時評估可簡化整合程序SDKs、APIs和外掛程式的可用性。更好的整合可以促進資料的收集和分析,而不會對應用程式造成巨大的負荷。

此外,請考慮服務是否支援資料擷取的常見通訊協定。提供更佳整合的服務有助於確保更順暢的加入體驗,讓您的團隊更快速地開始監控並取得對您 AWS 環境的寶貴洞見。

Data retention and storage

資料保留和儲存功能是選取 AWS 監控和可觀測性服務的關鍵考量。對於您考慮的任何服務,請檢查有關儲存和保留歷史資料的政策,以及處理隨時間增加資料量的可擴展性。

評估服務是否支援長期儲存指標、日誌和追蹤,讓您能夠執行回溯性分析並符合合規要求。也請考慮您可以輕鬆存取和擷取封存資料。

您使用的服務 (或服務) 應該在提供足夠的保留期以進行有意義的趨勢分析,以及有效管理儲存成本之間取得平衡。在考慮監控設定如何同時符合營運需求和法規義務時,清楚了解資料保留和儲存政策非常重要。

Scalability

評估服務與不斷發展的基礎設施和不斷增長的工作負載一起擴展的能力。可擴展的解決方案應可無縫處理資料量、使用者活動和應用程式複雜性的增加。

考量服務的彈性、因應需求激增的能力,以及是否支援自動調整規模功能,以動態適應不斷變化的需求。強大的可擴展性有助於確保您的監控系統保持回應和有效,即使在您的 AWS 環境擴展時也能及時提供洞見。

透過選擇具有強大可擴展性的服務,您可以放心地支援應用程式和基礎設施的持續增長,而不會犧牲效能或產生不必要的操作挑戰。

Alerting and notification

評估服務的提醒功能,包括能夠根據預先定義的閾值、異常或特定事件設定提醒。尋找設定警示條件的彈性,以及輕鬆管理通知管道,例如電子郵件、簡訊或與協同合作工具的整合。

您選擇的服務 (或服務) 應該提供及時且可行的提醒,讓您的團隊能夠快速回應潛在問題。考慮向上呈報政策等功能,以及確認或隱藏提醒的能力。

與熱門事件管理平台整合可以增強整體事件回應工作流程。排定監控服務的優先順序,讓您的團隊能夠主動解決問題、將停機時間降至最低,並確保 AWS 環境的持續運作狀態。

Cost

了解每個服務的定價模式,並考慮資料磁碟區、儲存和任何其他功能等因素。檢閱您正在考慮的任何服務的成本資訊 (例如 Amazon CloudWatch 的此帳單和成本摘要)。

評估定價結構是否符合您的預算和用量模式。有些服務可能提供pay-as-you-go模式,有些則可能有分層定價或訂閱計劃。考慮所有成本的潛在影響,包括資料傳輸費用或存取歷史資料的費用。

此外,評估定價是否隨著基礎設施的成長而有效率地擴展。清楚了解成本可確保您的監控解決方案在不影響基本功能的情況下保持成本效益,讓您可以最佳化預算,同時滿足您的營運需求 AWS。

Customization and extensibility

評估服務是否允許您量身打造儀表板、報告和提醒,以符合您的需求。尋找建立自訂指標、查詢和視覺化的彈性。與第三方工具和對常見 APIs的支援整合,可增強服務的可擴展性。評估監控解決方案是否可以適應應用程式和基礎設施的獨特需求。

高度可自訂且可擴展的服務可讓您的團隊微調監控參數、適應不斷變化的使用案例,以及與您現有的工作流程和工具無縫整合。優先考慮提供高度可設定性的解決方案,讓您可以針對特定 AWS 環境和操作偏好設定最佳化監控。

Security and compliance

評估服務如何遵守 AWS 安全最佳實務,確保資料機密性、完整性和可用性。檢查傳輸中和靜態加密、存取控制和安全身分驗證機制等功能。評估服務是否支援遵守適用於您產業的相關法規和標準。

尋找稽核追蹤功能和產生合規報告的能力。目標是使用監控實務來符合法規要求,以協助保護敏感資料。

優先考慮提供強大安全狀態的服務,讓您的組織維持安全且合規 AWS 的環境,同時深入了解您的應用程式和基礎設施。

Machine learning and analytics

評估服務是否使用機器學習 (ML) 來提供進階洞見、異常偵測和預測分析。尋找可自動識別資料中模式、趨勢和潛在問題的功能。

強大的機器學習元件可以增強異常偵測的準確性,減少誤報並改善監控系統的整體有效性。此外,請考慮提供的分析深度,例如根本原因分析和趨勢預測。具有強大機器學習和分析功能的服務可讓您的團隊主動解決問題、最佳化效能,並深入了解 AWS 應用程式和基礎設施的行為。

Global reach

全域覆蓋是 AWS 監控和可觀測性服務的關鍵條件,特別是當您的基礎設施分散在多個區域時。評估監控服務是否可讓您了解不同資源的效能和運作狀態 AWS 區域。

考慮能夠彙總和分析來自不同地理位置的資料,確保全面了解您的全球基礎設施。尋找支援集中式管理和監控的功能,讓您能夠有效率地在全球規模上監督操作。

具有強大全球觸角的服務有助於確保您可以維持一致的監控實務、對問題進行故障診斷,並在整個 AWS 部署範圍內無縫最佳化效能,無論地理界限為何。對於具有地理分佈或多雲端基礎設施的組織來說,此功能特別重要。

選擇

現在您知道評估監控和可觀測性選項的條件,您就可以選擇哪些 AWS 監控和可觀測性服務可能適合您的組織需求。

下表重點介紹針對哪些情況最佳化哪些服務。使用 資料表來協助判斷最適合您組織和使用案例的服務。

使用案例 它針對什麼進行最佳化? 監控和可觀測性服務
Monitoring and alerting

這些服務經過最佳化,可提供即時可見性、主動問題偵測、資源最佳化和有效的事件回應,有助於整體應用程式和基礎設施的運作狀態。

Amazon CloudWatch

Amazon CloudWatch Logs

Amazon EventBridge

應用程式效能監控

這些服務提供應用程式行為的完整洞見、提供識別和解決效能瓶頸的工具、協助進行有效的故障診斷,以及協助跨分散式和 Web 應用程式提供現代使用者體驗。

Amazon CloudWatch Application Signals

Amazon Managed Service for Prometheus

AWS X-Ray

Amazon CloudWatch Synthetics

Infrastructure observability

這些服務可讓您全面檢視雲端資源,協助您在資源使用率、效能最佳化和成本效益方面做出更明智的決策。

Amazon CloudWatch 指標

Amazon CloudWatch Container Insights

記錄和分析

這些服務可協助您有效率地管理和分析日誌資料、故障診斷、偵測異常狀況、支援安全性、符合合規要求,以及取得應用程式和基礎設施的可行洞見。

Amazon Cloudwatch Logs Insights

Amazon CloudWatch Logs 異常偵測

Amazon Managed Grafana

Amazon OpenSearch Service

Amazon Kinesis Data Streams

Security and compliance monitoring

最佳化以提供強大的安全架構,啟用主動威脅偵測、持續監控、合規追蹤和稽核功能,以協助保護您的 AWS 資源並維護安全且合規的環境。

Amazon GuardDuty

AWS Config

AWS CloudTrail

網路監控

這些服務提供網路流量的可見性、透過偵測和防止威脅來增強安全性、啟用有效的網路流量管理,以及支援事件回應活動。

Amazon CloudWatch 網路監控器

Amazon CloudWatch Internet Monitor

Amazon VPC 流程日誌

AWS Network Firewall

Distributed tracing

這些服務提供分散式應用程式中互動和相依性的完整檢視。它們可讓您診斷效能瓶頸、最佳化應用程式效能,並藉由提供對應用程式不同部分如何通訊和互動的深入見解,來支援複雜系統的順暢運作。

AWS Distro for OpenTelemetry

AWS X-Ray

Amazon CloudWatch Application Signals (預覽版)

混合多雲端可觀測性

維持可靠的操作,為您的客戶提供現代數位體驗,並取得協助以達成服務水準目標和效能承諾。

Amazon CloudWatch (混合多雲端支援)

使用

您現在應該清楚了解每個 AWS 監控和可觀測性服務 (以及支援 AWS 工具和服務) 的功能,以及哪些功能可能適合您。

為了探索如何使用和進一步了解每個可用的 AWS 可觀測性服務,我們提供了途徑來探索每個服務的運作方式。下一節提供深入文件、實作教學課程和資源的連結,協助您開始使用。

Amazon CloudWatch
  • Amazon CloudWatch 入門

    使用 Amazon CloudWatch AWS 即時監控您的 AWS 資源和您在 上執行的應用程式。您可以使用 CloudWatch 收集和追蹤指標,這些是您可以為您的資源和應用程式測量的變數。

    探索指南

  • Amazon CloudWatch 指標入門

    本指南討論基本監控和詳細監控、如何繪製指標圖形,以及如何使用 CloudWatch 異常偵測。

    探索指南

  • 在 Amazon EKS 和 Kubernetes 上設定 Container Insights

    在 EKS 叢集上設定 Amazon CloudWatch 可觀測性 ESK 附加元件和 ADTO,以將指標傳送至 CloudWatch。您也將了解如何設定 Fluent Bit 或 Fluentd 將日誌傳送至 CloudWatch Logs。

    探索指南

  • Amazon CloudWatch Application Insights 入門

    了解如何使用 主控台讓 CloudWatch Application Insights 管理您的應用程式以進行監控。

    探索指南

  • 使用容器洞見

    了解 CloudWatch Container Insights 如何從容器化應用程式和微服務收集、彙總和摘要指標和日誌。

    探索指南

  • 在 Amazon ECS 上設定 Container Insights

    了解如何設定叢集和服務層級指標、部署 ADOT 以收集 EC2 執行個體層級指標,以及設定 FireLens 將日誌傳送至 CloudWatch Logs。

    探索指南

Amazon CloudWatch Application Insights
  • Amazon CloudWatch Application Signals 入門

    在本指南中,您將了解如何自動檢測您的應用程式, AWS 以便您可以監控目前的應用程式運作狀態,並根據業務目標追蹤長期應用程式效能。

    探索指南

  • Amazon CloudWatch Application Signals 可自動檢測您的應用程式

    此部落格文章提供 Amazon CloudWatch Application Signals AWS Management Console 的深入演練,示範如何收集 EKS 叢集的遙測。

    閱讀部落格文章

  • 如何使用 SLOs搭配 Amazon CloudWatch Application Signals 監控應用程式運作狀態

    此部落格文章示範 Amazon CloudWatch Application 訊號如何讓您在 上自動檢測和操作應用程式 AWS ,以根據最重要的目標追蹤應用程式效能。

    閱讀部落格文章

Amazon CloudWatch Lambda Insights
  • CloudWatch Lambda Insights 簡介

    了解如何建立一些「Hello World」Lambda 函數,並使用 Lambda Insights 進行監控。您將使用 AWS CDK 部署架構。

    閱讀部落格

  • 使用 Amazon CloudWatch Lambda Insights 改善營運可見性

    了解如何使用 Lambda Insights 來提供簡單且方便的操作監督,以及對 AWS Lambda 函數行為的可見性。

    閱讀部落格

Amazon CloudWatch Logs
  • Amazon CloudWatch Logs 入門

    了解如何安裝統一的 CloudWatch 代理程式,以及如何使用 設定指標集合 AWS CloudFormation。

    閱讀指南

  • 使用 CloudWatch Logs Insights 分析日誌資料

    本指南將示範如何開始使用 Logs Insights 查詢、將圖形中的日誌資料視覺化,以及將查詢新增至儀表板。

    指南入門

  • Amazon CloudWatch Logs Insights – 快速、互動式日誌分析

    使用 Logs Insights 利用 建立的所有各種日誌中存在的資料點、模式、趨勢和洞見 AWS 服務 ,以了解您的應用程式 AWS 和資源的行為、識別改進空間,以及解決操作問題。

    閱讀部落格文章

Amazon CloudWatch Synthetics
  • 使用合成監控

    本指南示範如何建立按排程執行的 Canary、可設定的指令碼,並提供 Canary 指令碼的範例程式碼。

    探索指南

  • 使用 Amazon CloudWatch Synthetics 和 安全地監控使用者工作流程體驗 AWS Secrets Manager

    如何使用 Amazon CloudWatch Synthetics 建立、部署和監控合成監控解決方案。

    閱讀部落格文章

Amazon EventBridge
  • Amazon EventBridge 入門

    了解如何建立基本規則,將事件路由到目標。

    探索指南

  • 封存和重播 Amazon EventBridge 事件

    使用 Lambda 主控台建立函數以用作 EventBridge 規則的目標。

    探索指南

  • 使用 EventBridge 記錄 Amazon EC2 執行個體的狀態

    建立 AWS Lambda 函數以記錄 Amazon EC2 執行個體的狀態變更。您將記錄任何新 EC2 執行個體的啟動。

    使用教學課程

  • 使用 Amazon EventBridge 建置事件驅動型應用程式

    了解如何使用 AWS Serverless Application Model (AWS SAM) CLI 建置和部署和事件驅動應用程式。

    閱讀部落格

AWS CloudTrail
  • 入門 AWS CloudTrail

    AWS CloudTrail 是 AWS 服務 ,可協助您啟用 的操作和風險稽核、控管和合規 AWS 帳戶。以下是開始使用的方法。

    探索指南

  • 檢閱 AWS 帳戶 活動

    了解如何檢閱 中支援 CloudTrail AWS 帳戶 之服務的 AWS API 活動。

    使用教學課程

  • 建立線索

    了解如何建立追蹤記錄所有區域中的 AWS API 活動,包括資料和 Insights 事件。

    使用教學課程

  • AWS CloudTrail 日誌監控研討會

    了解如何將 CloudTrail 日誌整合到 CloudWatch並使用 CloudWatch Log Insights、CloudWatch 指標篩選條件、CloudWatch 指標警示和 CloudWatch Dashboards 等功能。

    使用 研討會

  • AWS CloudTrail 最佳實務

    使用 CloudTrail 在整個組織中啟用稽核的最佳實務。

    閱讀部落格

AWS Config
  • 入門 AWS Config

    AWS Config 提供 中 AWS 資源組態的詳細檢視 AWS 帳戶。這說明如何開始使用它。

    探索指南

  • 設定 AWS Config (主控台)

    了解如何 AWS 帳戶 使用 在 AWS Config 中設定 AWS Management Console。

    探索指南

  • AWS Config 使用 設定 AWS CLI

    了解如何 AWS 帳戶 使用 在 AWS Config 中設定 AWS CLI。

    探索指南

Amazon Managed Grafana
  • Amazon Managed Grafana 入門

    了解如何開始使用 Amazon Managed Grafana 並建立您的第一個工作區,然後連線到該工作區中的 Grafana 主控台。

    探索指南

  • Amazon Managed Grafana - 入門

    了解如何與 Amazon Managed Service for Prometheus 整合,以及如何建立自訂儀表板。

    閱讀部落格

  • 使用 Amazon Managed Grafana 視覺化並深入了解您的 AWS 成本和用量

    了解如何使用 Amazon Managed Grafana 視覺化和分析您的 AWS 成本和用量資料。

    閱讀部落格

Amazon Managed Service for Prometheus
  • Amazon Managed Service for Prometheus 入門

    建立 Amazon Managed Service for Prometheus 工作區、設定擷取 Prometheus 指標到這些工作區,以及查詢這些指標。

    探索指南

  • Container Insights Prometheus 指標監控

    了解如何使用 CloudWatch Container Insights 從容器化工作負載中自動化探索 Prometheus 指標。

    探索指南

  • Amazon Managed Service for Prometheus FAQs

    有關 Amazon Managed Service for Prometheus 的常見問題。

    閱讀FAQs

Amazon OpenSearch Service
  • Amazon OpenSearch Service 入門

    使用 Amazon OpenSearch Service 建立和設定測試網域。OpenSearch Service 網域與 OpenSearch 叢集同義。

    探索指南

  • Amazon OpenSearch Serverless 入門

    本教學課程會逐步引導您取得 Amazon OpenSearch Serverless 搜尋集合並快速執行的基本步驟

    使用教學課程

  • 在 Amazon OpenSearch Service 中建立和搜尋文件

    了解如何在 Amazon OpenSearch Service 中建立和搜尋文件。

    使用教學課程

  • Amazon OpenSearch Ingestion 入門

    了解如何使用 Amazon OpenSearch Ingestion 將資料擷取至網域和集合。

    探索指南

  • Amazon OpenSearch Service 研討會上的 SIEM

    在 Amazon OpenSearch Service 上建置安全日誌分析平台,並開始建置符合成本效益的日誌擷取、分析和儀表板解決方案。

    使用研討會

  • 在 Amazon OpenSearch Service 中建立和搜尋文件

    了解如何在 Amazon OpenSearch Service 中建立和搜尋文件。

    使用教學課程

AWS Distro for OpenTelemetry
  • AWS Distro for OpenTelemetry (ADOT) 收集器入門

    逐步解說在本機建置 ADOT 集合的步驟。

    探索指南

  • AWS Distro for OpenTelemetry JavaScript

    了解如何檢測您的 JavaScript 應用程式,並將相關指標傳送至各種 AWS 監控解決方案。

    探索指南

  • AWS Distro for OpenTelemetry Python

    本指南將示範如何檢測 Python 應用程式,並將相關指標傳送至各種 AWS 監控解決方案。

    探索指南

AWS X-Ray
  • 入門 AWS X-Ray

    本指南將逐步引導您啟動範例應用程式。然後,您將了解如何檢測您的應用程式,並探索與 X-Ray 整合的其他服務。

    探索指南

  • 一個可觀測性研討會

    本研討會為您提供實作體驗,提供監控和可觀測性的各種工具 AWS ,包括 AWS X-Ray 和 ADOT。

    使用研討會

  • 使用 的應用程式記錄和監控 AWS X-Ray

    了解 如何 AWS X-Ray 收集應用程式提供的請求相關資料,並協助您檢視、篩選和深入了解該資料,以識別問題和最佳化的機會。

    探索指南

探索

  • 解決方案

    探索可協助您實作監控和可觀測性的解決方案 AWS。

    探索解決方案

  • 白皮書

    探索白皮書,協助您開始使用、了解最佳實務,並了解您的監控和可觀測性選項。

    探索白皮書

  • 影片、模式和指引

    探索涵蓋監控和可觀測性服務常見使用案例的其他架構指引。

    探索其他資產