網路監視器的運作方式 - Amazon CloudWatch

網路監視器的運作方式

本節提供 Internet Monitor 運作方式的相關資訊。其中會說明 AWS 如何收集資料以用於協助偵測跨網際網路連線問題的資料,以及如何計算效能和可用性分數。

內容

Internet Monitor 如何僅專注於您的應用程式流量足跡

網路監視器著重於監控 AWS 資源使用者存取的網際網路子集,而非如同其他工具在全球每個區域廣泛監控您的網站。這也是一種具有成本效益的解決方案,大型公司和小型公司都負擔得起。

網路監視器會使用與 AWS 內部所用的相同強大探查工具和問題偵測演算法,並透過在網路監視器中建立運作狀態事件,以在發生影響應用程式的連線問題時,向您發出提醒。接著,網路監視器會依據應用程式資源,藉由覆蓋您作用中檢視者建立的流量設定檔,讓您存取產生的效能和可用性地圖。

網路監視器僅會使用這些資訊向您顯示相關事件 (即具有作用中檢視者之位置所發生的事件),以及這些事件對整體檢視者數量的影響。因此,系統會依據您的全球總流量,以百分比計算事件的影響程度。

Internet Monitor 儲存您的用戶端位置和 ASN 或城市網路對的網際網路度量資料。Internet Monitor 還會針對流向應用程式的流量,以及流向每個 AWS 區域與邊緣節點的流量,建立彙總的 CloudWatch 指標。

此外,Internet Monitor 每五分鐘將網際網路度量資訊發佈至 CloudWatch Logs 網際網路一次,涵蓋向每個監視器傳送流量的前 500 個城市網路,以支援您使用 CloudWatch 工具及其他方法處理資料。您也可以選擇將所有受監控之城市網路 (最多 500,000 個城市網路服務限制) 的網際網路度量發佈至 Amazon S3 儲存貯體。如需更多詳細資訊,請參閱 在 Internet Monitor 中將網際網路度量結果發佈到 Amazon S3

網路監視器的優點如下:

  • 使用網路監視器不會給 AWS 上託管的應用程式增加額外負載或成本。

  • 您無需在用戶端資源或應用程式中納入效能測量代碼。

  • 您可以了解應用程式連線之網際網路的效能和可用性,包括「最後一哩」相關資訊。

請注意,由於網路監視器會根據您的 AWS 資源建立測量結果,因此網路監視器僅會建立特定於您應用程式流量的事件。一般來說,不會回報全域網際網路問題。此外,若服務位置為 AWS 區域,則發出的度量和事件會用於表示區域層級的連線能力,不會精確地呈現最終使用者位置與可用區域之間的連線情況。

AWS 如何度量連線問題並計算度量結果

Internet Monitor 使用不同 AWS 區域與 Amazon CloudFront 連接點 (POP) 之間的網際網路連線資料,透過自治系統編號 (ASN) (通常是網際網路服務供應商 (ISP)) 連線至不同的用戶端位置。AWS 電信業者每日皆於內部使用此連線資料,以主動偵測全域網際網路的連線問題。

針對每個 AWS 區域,我們皆會知道網際網路與該區域進行通訊的部分,並執行下列動作:

  • 我們會積極監控該部分的網際網路,30 天為一個時段,滾動監控。

  • 我們會同時使用網路和高階通訊協定探查工具,包括輸入和輸出探查。

AWS 具有主動和被動探查功能,可測量從各 AWS 區域 和 CloudFront 服務到整個網際網路的延遲 (效能) (精度可達 90%) 和連線能力 (可用性)。服務與客戶位置之間連線的異常模式會受到監控,然後會以提醒方式回報給該客戶。

如需詳細資訊,請參閱下列的章節:

計算可用性和 RTT

往返時間 (RTT) 是指從使用者發出請求至回應傳回至該使用者所需的時間。不同最終使用者位置的往返時間彙總值會根據每個最終使用者位置驅動的流量大小加權。

例如,若有兩個最終使用者位置,一個提供 90% 的流量 (RTT 為 5 毫秒),另一個提供 10% 的流量 (RTT 為 10 毫秒),則 RTT 彙總值結果會是 5.5 毫秒 (5 毫秒 * 0.9 + 10 毫秒 * 0.1)。

請注意,測量最後一哩延遲的資源有所不同。對於網路監視器延遲度量,VPC、Network Load Balancer 和 WorkSpaces 目錄不包含最後一哩延遲。

計算效能和可用性分數

AWS 擁有大量 AWS 服務與不同城市網路 (位置和 ASN) 之間的網際網路效能和可用性相關的歷史資料。網路監視器可藉由對這些資料進行統計分析,偵測應用程式效能和可用性下降的時機,並將效能和可用性與已計算的預估基準比較。為了方便您查看上述下降情況,會以運作狀態分數形式 (效能分數和可用性分數) 向您回報該資訊。

我們會以不同精細度計算運作狀態分數。我們會以最精細的程度運算地理區域 (例如城市或都會區) 和 ASN (「城市網路」) 的運作狀態分數。我們也會將監視器中應用程式的個別運作狀態分數,彙總為整體運作狀態分數。如果您在未篩選任何特定地理區域或服務提供者的情況下,檢視效能或可用性分數,網路監視器會提供整體運作狀態分數。

整體運作狀態分數會涵蓋指定時段內的整個應用程式情況。整個應用程式城市網路配對的效能或可用性分數達到或低於效能或可用性的相應運作狀態事件閾值時,網路監視器會觸發運作狀態事件。整體效能和可用性閾值預設都是 95%。網路監視器也會根據您設定的值,依局部閾值 (如果預設啟用該選項)建立運作狀態事件。若要進一步了解設定運作狀態事件閾值,請參閱變更運作狀態事件閾值

瀏覽監視器和日誌檔案中的資訊以調查問題並進一步了解時,可以依特定城市 (位置)、網路 (ASN 或網際網路服務供應商) 或兩者來篩選。您便可使用篩選條件,依所選篩選條件,查看不同城市、ASN 或城市網路配對的運作狀態分數。

  • 可用性分數表示發現可用性下降的預估流量百分比。網路監視器會根據監控到的總流量和可用性指標測量結果,預估經歷可用性下降的流量百分比。例如,最終使用者/服務位置配對的可用性分數為 99%,這表示該對經歷可用性下降的流量為 1%。

  • 效能分數表示發現效能下降的流量百分比。例如,最終使用者/服務位置配對的效能分數為 99%,這表示該對經歷效能下降的流量為 1%。

計算 TTFB 和 RTT (延遲)

第一個位元組時間 (TTFB) 是指自用戶端請求到從伺服器接收到資訊的第一個位元組經歷的時間。TTFB 的 AWS 計算會測量從 Amazon EC2 或 Amazon CloudFront 到網路監視器測量節點 (包含節點最後一哩) 經歷的時間。也就是說,網路監視器會測量從使用者到 Amazon EC2 區域的 EC2 TTFB 時間,以及從使用者到 CloudFront 的 CloudFront TTFB 時間。

針對往返時間 (RTT),網路監視器包含從城市網路 (即用戶端位置和 ASN,通常是網際網路服務供應商),如公共 IP 地址所映射,到 AWS 區域 的時間。這表示網路監視器無法在最後一哩掌握從閘道或 VPN 後存取網際網路的使用者。

請注意,測量最後一哩延遲的資源有所不同。對於網路監視器延遲度量,VPC、Network Load Balancer 和 WorkSpaces 目錄不包含最後一哩延遲。

網路監視器在 CloudWatch 儀表板上流量洞察標籤之流量最佳化建議區段包含平均 TTFB 資訊,協助您評估可改善效能的不同應用程式設定選項。

區域及可用區域度量和彙總

雖然 Internet Monitor 會在區域層級彙總度量並共用影響,但會在可用區域 (AZ) 層級計算影響。這意味著,若某個事件僅影響單一可用區域 (AZ),而您的大部分流量都流經該可用區域,您的流量確實會受到影響。不過,同樣一個事件,如果您的應用程式流量未流經受影響的可用區域,則您不會看到影響。

請注意,這僅適用於非 WorkSpaces 目錄的資源。WorkSpaces 目錄只會在區域層級度量。

網路監視器的地理位置準確度

針對位置資訊,網路監視器會使用由 MaxMind 提供的 IP 地理位置資料。網路監視器度量中位置資訊的準確度取決於 MaxMind 資料的準確度。

請注意,對於美國境外的地點,Metro 層級的度量結果可能不準確。

網路監視器建立和解決運作狀態事件的時機

網路監視器會根據目前設定的閾值,為您監控的應用程式流量建立和關閉運作狀態事件。網路監視器有預設閾值組態,您也可以設定自己的閾值組態。網路監視器會判斷連線問題對您應用程式造成的整體影響,以及對應用程式有用戶端之局部區域的影響,並在超過閾值時建立運作狀態事件。

網路監視器會根據 AWS 之服務可用網路流量的網際網路效能和可用性歷史資料,計算連線問題對用戶端位置的影響。其根據用戶端使用您應用程式的 ASN 和服務地理位置:受影響的城市網路配對,套用與您應用程式相關的資訊。位置是根據您新增至監視器的資源決定。網路監視器就會使用統計分析,偵測效能和可用性下降的時機,這會影響應用程式用戶端體驗。

網路監視器計算的效能和可用性分數會以發現下降的流量百分比來表示。影響則與此相反:表示問題對客戶的最終使用者造成的問題嚴重程度。因此,假如全域可用性下降 93%,則對應的影響就會是 7%。

應用程式城市網路配對的效能或可用性分數全域達到或低於效能或可用性的相應運作狀態事件閾值時,會使網路監視器產生運作狀態事件。效能和可用性閾值預設都是 95%。符合或低於閾值的值是累積計算,因此可能代表幾個較小事件合起來達到閾值百分比,或者單一事件達到或低於閾值層級。

只要觸發事件的效能或可用性分數符合或低於相應整體影響運作狀態事件閾值百分比,運作狀態事件就會保持未解決狀態。觸發事件的分數或合併分數上升到超過閾值時,網路監視器會解決運作狀態事件。

網路監視器也會根據局部閾值和問題影響的整體流量百分比,建立運作狀態事件。您可以設定局部閾值的選項,或一併關閉局部閾值。

效能分數和可用性分數的預設運作狀態事件閾值都是 95%。如果您願意,可以在 Internet Monitor 建立運作狀態事件時指定自己的自訂閾值。如需設定閾值的詳細資訊,請參閱變更運作狀態事件閾值

運作狀態事件回報時機

網路監視器會使用彙總器來收集有關網際網路問題的所有訊號,以在幾分鐘內於監視器中建立運作狀態事件。

網路監視器會盡可能分析運作狀態事件的來源,以判斷問題是否是由 AWS 或 ASN 造成。在事件解決後,運作狀態事件分析會繼續進行。網路監視器最多可以使用新資訊更新事件一小時。

網路監視器如何使用 IPv4 和 IPv6 流量

如果透過任何 IP 系列 (IPv4 或 IPv6) 向該網路提供流量,則網路監視器僅透過 IPv4 測量網路的運作狀態,並向您顯示運作狀態事件,以及可用性和效能指標。如果您提供來自雙堆疊資源 (例如雙堆疊 CloudFront 分發) 的流量,則只有當 IPv4 流量與 IPv6 流量存在相同的資源問題時,Internet Monitor 才會引發運作狀態事件,並顯示效能評分或可用性評分下降。

請注意,網路監視器的總傳入位元組和傳出位元組指標可準確反映所有網際網路流量 (IPv4 和 IPv6)。

Internet Monitor 如何選取要包含的城市網路子集

當您設定監視器監控的城市網路數目上限,或選擇要監控的流量百分比時,Internet Monitor 會依據近期最高流量,選擇要包含 (監控) 的城市網路。

例如,如果您將城市網路上限設定為 100,Internet Monitor 會根據最近一小時期間的應用程式流量,監控 (最多) 100 個城市網路。具體而言,Internet Monitor 會監控在最新一小時監測時段之前的一小時內,流量最高的前 100 個城市網路。

為說明這一點,假設目前時間是下午 2:30。這種情況下,您在監視器中看到的流量擷取自下午 1:00 到下午 2:00 之間,而 Internet Monitor 用於判定前 100 個城市網路的流量量測資料,則擷取自中午 12:00 至下午 1:00 之間。

如何建立全球網際網路氣象圖 (常見問答集)

Internet Monitor 網際網路氣象圖,可供所有經認證的 AWS 客戶於 Internet Monitor 主控台上使用。本節包含如何建立網際網路氣象圖以及如何使用它的詳細資訊。

什麼是 Internet Monitor 網際網路氣象圖?

網際網路氣象圖以視覺化方式呈現全球的網際網路問題。其會標示出受影響的用戶端位置,即城市加上 ASN (通常指網際網路服務供應商)。地圖顯示近期影響全球主要用戶端位置及 AWS 服務之客戶網際網路體驗的可用性與效能問題組合。

地圖資料來自何處?

資料基於對網際網路的主動與被動探測。若要進一步了解 Internet Monitor 如何度量資料,可以閱讀 AWS 如何度量連線問題一節。

地圖多久更新一次?

網際網路氣象圖每 15 分鐘更新一次。

會追蹤哪些網路的停機狀況?

AWS 追蹤的全球網路,代表客戶用來與 AWS 建立網際網路連線的重要 IP 字首。我們將中斷範圍限定在與 AWS 網路相互傳送資料的流量最大的用戶端位置。

決定是否將某個網際網路事件納入地圖的因素有哪些?

以下是我們用來判斷某個網際網路事件是否納入網際網路氣象圖的高階標準:

  • AWS 偵測到發生可用性或效能事件。

  • 若事件持續時間短暫,例如不到 5 分鐘,我們會予以忽略。

  • 若事件發生於被歸類為「頂端發言者」的用戶端位置,則視為中斷。

網際網路氣象圖使用哪些閾值?

網際網路氣象圖中用於判定中斷的閾值並非靜態不變。Internet Monitor 根據偵測到的值與預期值的偏差,來判定何謂事件。您可以檢閱 Internet Monitor 如何確定何時為使用服務建立的監視器建立運作狀態事件,以進一步了解其運作方式。您建立監視器後,Internet Monitor 會針對您自己的應用程式流量,產生網際網路流量運作狀態度量資料。發生影響應用程式網際網路流量的問題時,Internet Monitor 還會向您發出運作狀態事件提醒。

我可以如何處理此資料?

網際網路氣象圖提供過去 24 小時內,全球各地發生之關鍵網際網路事件的快速摘要。它可協助您了解網際網路監控體驗,而不需要將自己的網際網路流量加入 Internet Monitor。若要充分利用 AWS 的網際網路監控功能,並針對託管於 AWS 上的應用程式和服務將其個人化,可以在 Internet Monitor 中建立監視器。

建立監視器時,您可以讓 Internet Monitor 識別影響應用程式用戶端的特定網際網路路徑,並存取可協助您改善用戶端體驗的功能。您還將主動收到通知,了解哪些新的網際網路問題會直接影響您的應用程式流量和用戶端。

如何取得事件的更多詳細資訊?

按一下地圖上的中斷可檢視詳細資訊,包括事件開始和結束時間、受影響的城市和 ASN,以及問題類型 (即效能問題或可用性問題)。

若要取得事件的更多詳細資訊,並針對您的應用程式流量取得自訂度量資料,請在 Internet Monitor 中建立監視器