

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 在 Amazon EKS 中追蹤
<a name="tracing"></a>

追蹤是 Amazon EKS 中應用程式可觀測性的重要元件。追蹤透過收集、處理和視覺化在 EKS 叢集上部署的各種微服務中的請求路徑，提供請求流程和服務互動的詳細可見性。此功能可協助您了解系統行為、識別瓶頸，以及有效疑難排解 Amazon EKS 環境中的問題。透過提供請求流程end-to-end可見性，有效的追蹤可消除對分散式系統進行偵錯的複雜性。這可讓您跨服務界限追蹤交易，並識別 Amazon EKS 工作負載內的效能問題或故障。

Amazon EKS 的整體追蹤實作可讓您了解系統行為、最佳化效能，以及維護容器化應用程式的可靠性。最後，追蹤功能可增強 Amazon EKS 環境中的操作可見性和系統可維護性。

AWS X-Ray 在追蹤應用程式相關資料中扮演重要角色。追蹤涉及監控服務互動的各個層面，包括下列項目：
+ **請求路徑和相依性**提供分散式系統行為的重要洞見。當請求周遊不同的微服務和元件時，他們會追蹤請求的完整旅程。映射服務相依性可協助您了解通訊模式，並識別應用程式架構中的關鍵路徑。如需實作詳細資訊，請參閱 X-Ray 文件中的[使用 AWS X-Ray 服務追蹤映射](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-servicemap.html)。
+ **服務延遲和瓶頸**是維持最佳系統效能的重要指標。透過測量和分析服務之間的回應時間，您可以有效地識別效能問題。此資料可讓您精確找出導致請求鏈延遲的特定服務或操作，並實現目標最佳化工作。若要進一步了解延遲分析，請參閱 X-Ray 文件中的[與 Analytics 主控台互動](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-analytics.html)。
+ **錯誤傳播模式**可協助您了解系統可靠性和容錯能力。透過追蹤跨 服務的錯誤路徑，了解失敗如何透過系統串聯，您可以更好地建構您的應用程式。這種可見性可協助您識別錯誤的根本原因及其對相依服務的影響，這會導致更具彈性的系統。如需實作詳細資訊，請參閱 X-Ray 文件中的[追蹤](https://docs.aws.amazon.com/xray/latest/devguide/xray-concepts.html#xray-concepts-traces)。
+ **跨服務的資源使用率**提供對系統效率和成本最佳化的洞察。您可以監控與追蹤資料相關的 CPU、記憶體和網路使用模式，以了解資源需求。此資料可協助您分析資源消耗趨勢，以最佳化 EKS 叢集的服務效能和成本。如需監控設定，請參閱 Amazon EKS 文件中的[監控叢集效能和檢視日誌](https://docs.aws.amazon.com/eks/latest/userguide/eks-observe.html)。
+ **最終使用者交易流程**對於了解和改善使用者體驗至關重要。透過追蹤從前端到後端服務的完整使用者互動，您可以確保最佳的應用程式效能。您可以測量和最佳化關鍵使用者旅程的end-to-end回應時間，這將直接影響客戶滿意度。若要實作最終使用者監控，請使用程式設計語言的 [AWS X-Ray SDK](https://docs.aws.amazon.com/xray/latest/devguide/xray-sdk.html)。
+ **API 閘道互動**形成應用程式效能和安全性的前線。您可以在 API 進入點監控請求模式和效能，以確保最佳服務交付。此可見性可協助您追蹤身分驗證、授權和速率限制對請求流程的影響，以同時維持安全和效能需求。進一步了解 [Amazon API Gateway with X-Raydocumentation 中的 API ](https://docs.aws.amazon.com/apigateway/latest/developerguide/apigateway-xray.html)追蹤。

Amazon EKS 中的有效追蹤不僅止於收集範圍和追蹤。它需要結構良好的策略，在可觀測性需求與系統效能之間取得平衡。此策略應著重於：
+ **實作適當的抽樣率**：根據流量模式和業務優先順序設定抽樣規則，以最佳化成本，同時保持關鍵交易的可見性。若要進一步了解，請參閱 X-Ray 文件中的[設定抽樣規則](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-sampling.html)。
+ **定義要追蹤的關鍵路徑和服務**：識別需要詳細追蹤以確保最佳效能監控的基本服務和使用者旅程，並排定其優先順序。如需詳細資訊，請參閱 Amazon EKS 文件中的[使用 ADOT Operator 傳送指標和追蹤資料](https://docs.aws.amazon.com/eks/latest/userguide/opentelemetry.html)。
+ **建立適當的資料保留政策**：設定資料生命週期管理規則，以平衡可觀測性需求與儲存成本和合規需求。若要檢視 CloudWatch 保留政策，請參閱 CloudWatch Logs 文件中的[使用日誌群組和日誌串流](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/Working-with-log-groups-and-streams.html)。
+ **設定有效的視覺化和分析工具**：部署和設定視覺化工具，例如 AWS X-Ray Analytics 主控台或 Amazon Managed Grafana，以有效分析追蹤資料。如需詳細資訊，請參閱 X-Ray 文件中的[與 Analytics 主控台互動](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-analytics.html)。

**Topics**
+ [工具](tracing-tools.md)
+ [最佳實務](tracing-best-practices.md)

# Amazon EKS 的追蹤工具
<a name="tracing-tools"></a>

Amazon EKS 支援數個 AWS 和第三方選項來實作分散式追蹤。

## AWS 服務
<a name="tracing-services"></a>
+ [AWS X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html)：進階分散式追蹤平台

  X-Ray 是全受管 AWS 服務 的，可提供end-to-end追蹤功能。它會自動檢測 AWS 服務 ，並為在 Amazon EKS 上執行的應用程式提供詳細的服務地圖和分析。X-Ray 與其他 整合 AWS 服務，包括 Amazon CloudWatch，並提供追蹤與 AWS 服務 呼叫的自動關聯性。 
+ [AWS Distro for OpenTelemetry](https://aws-otel.github.io/)：統一可觀測性架構

  Distro for OpenTelemetry 是適用於雲端原生應用程式的安全、生產就緒和 AWS支援的 OpenTelemetry 分佈。它提供廠商中立的檢測功能，同時維持原生 AWS 服務 整合，因此非常適合混合雲端環境。Distro for OpenTelemetry 支援多個可觀測性後端，並提供與 AWS 監控服務的無縫整合。 

## 開放原始碼解決方案
<a name="tracing-open-source"></a>
+ [OpenTelemetry](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-OpenTelemetry-Sections.html)：開放原始碼可觀測性架構 

  OpenTelemetry 提供標準化的可觀測性架構，其中包含支援多種程式設計語言的全方位檢測程式庫。其靈活的後端選項和廠商中立方法，非常適合需要跨不同環境一致性的工作負載。框架的廣泛生態系統可確保與各種監控解決方案的廣泛相容性。 
+ [Jaeger](https://www.jaegertracing.io/)：開放原始碼分散式追蹤平台

  Jaeger 提供具有即時分散式內容傳播的全方位追蹤功能。它透過詳細的服務相依性視覺化來提供根本原因分析和效能最佳化。Jaeger 的架構專為高可擴展性而設計，並支援各種儲存後端，因此適合大規模的 Amazon EKS 部署。[EKS 設定的 ViewJaeger](https://www.jaegertracing.io/docs/latest/operator/) 
+ [Grafana Tempo](https://grafana.com/docs/tempo/latest/)：分散式追蹤

  Tempo 是一種 Grafana 實驗室解決方案，可提供大規模追蹤儲存，並與 Prometheus 指標無縫整合。其具有成本效益的追蹤保留模型以及與 Grafana 的原生整合，使其適用於已使用 Grafana 進行視覺化的組織。Tempo 的架構專為 Amazon EKS 等雲端原生環境而設計。

# 在 Amazon EKS 中追蹤的最佳實務
<a name="tracing-best-practices"></a>

本節提供建立有效追蹤系統的完整最佳實務和技術清單，以增強 Amazon EKS 中以 Kubernetes 為基礎的應用程式的可觀測性和故障診斷。
+ **策略抽樣**：根據您應用程式的流量模式和您正在使用之服務的重要性，設定不同的抽樣率。為關鍵路徑實作更高的取樣率，同時減少大量、較不關鍵的路由取樣，以最佳化成本。如需指引，請參閱 AWS X-Ray 文件中的[設定抽樣規則](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-sampling.html)。
+ **檢測設定**：使用 X-Ray SDK 或 AWS Distro for OpenTelemetry 收集器等自動檢測工具，將手動檢測工作降至最低。維持跨 服務的一致命名慣例和內容傳播，以獲得更好的追蹤關聯性。如需詳細資訊，請參閱 [Distro for OpenTelemetry 收集器文件](https://aws-otel.github.io/docs/getting-started/collector)。
+ **資料管理**：實作適當的保留期和壓縮策略，以平衡儲存成本與您的可觀測性需求。建立明確的資料隱私權控制和備份程序，以保護敏感的追蹤資料。如需詳細資訊，請參閱[ CloudWatch Logs 文件中的變更 CloudWatch Logs 中的日誌資料保留](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/Working-with-log-groups-and-streams.html#SttingLogRetention)。 CloudWatch 
+ **效能最佳化**：監控和最佳化追蹤額外負荷，將對應用程式效能的影響降至最低。使用有效的緩衝和非同步處理，以減少延遲影響。如需詳細資訊，請參閱 X-Ray 文件中的[設定 AWS X-Ray 協助程式](https://docs.aws.amazon.com/xray/latest/devguide/xray-daemon-configuration.html)。
+ **安全控制**：使用 IAM 角色和政策實作適當的存取控制和資料保護措施。定期安全稽核和合規審查有助於確保追蹤資料保持安全。如需詳細資訊，請參閱 X-Ray 文件中的 [安全 AWS X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/security.html)。
+ **監控和提醒**：設定追蹤集合運作狀態的全面監控，並設定集合問題的提醒。追蹤取樣率和系統效能指標，以確保最佳操作。如需詳細資訊，請參閱 CloudWatch 文件中的 [Container Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContainerInsights.html)。
+ **高可用性**：跨可用區域部署備援收集器，並設定適當的容錯移轉機制。定期測試高可用性設定可確保可靠的追蹤收集。如需詳細資訊，請參閱《Amazon Managed Service [for Prometheus 文件》中的使用 AWS Distro for OpenTelemetry 做為收集器](https://docs.aws.amazon.com/prometheus/latest/userguide/AMP-ingest-with-adot.html)。

透過遵循這些最佳實務，您可以為您的 Amazon EKS 環境建立強大、有效率且有效的追蹤系統。這將有助於確保 Kubernetes 應用程式的完整可觀測性、有效率的故障診斷和最佳效能。