本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
功能和功能
支援的平台
-
語言:Python 和 Scala Spark 應用程式
-
目標平台:Amazon EMR、EMR Serverless 和 AWS Glue
運作方式
當您的 Spark 應用程式失敗時,您可以使用故障診斷代理程式自動調查發生的問題。它會分析您的 Spark 事件日誌、錯誤訊息和資源用量,以找出確切的問題,無論是 Spark 執行器記憶體不足、組態錯誤或程式碼錯誤。
當您要求自然語言提示來分析 Spark 工作負載時,代理程式會連線至您平台的資源並擷取功能 (包括 Spark 事件日誌、查詢計劃、執行器時間表、日誌追蹤、組態和指標):
-
在 EMR-EC2 上:它會連線至叢集的 EMR 持久性 UI
-
在 Glue 上:它會從 Glue Studio 的 Spark UI 建置任務的內容
-
在 EMR-Serverless 上:它會連線至任務的 EMR-Serverless Spark 歷史記錄伺服器
-
代理程式也會分析您的錯誤堆疊追蹤和組態詳細資訊,為您提供可行的洞見。
對於失敗的工作負載,您可以取得明確的根本原因說明,以及修正它的特定步驟。如果代理程式偵測到程式碼相關問題,它會自動提供程式碼建議,向您顯示程式碼中要變更的內容。您也可以隨時直接請求程式碼層級的建議,無需完整分析。
可用的區域
Spark 疑難排解代理程式可在下列區域使用:
-
亞太區域:東京 (ap-northeast-1)、首爾 (ap-northeast-2)、新加坡 (ap-southeast-1)、雪梨 (ap-southeast-2) 和孟買 (ap-south-1)
-
北美洲:加拿大 (ca-central-1)
-
歐洲:斯德哥爾摩 (eu-north-1)、愛爾蘭 (eu-west-1)、倫敦 (eu-west-2)、巴黎 (eu-west-3) 和法蘭克福 (eu-central-1)
-
南美洲:聖保羅 (sa-east-1)
-
美國:北維吉尼亞 (us-east-1)、俄亥俄 (us-east-2) 和奧勒岡 (us-west-2)
Spark 疑難排解範圍和使用者需求
-
支援的 Spark 工作負載狀態:這些工具僅支援回應失敗的 Spark 工作負載。
-
EMR 持久性 UI:分析 Amazon EMR-EC2 工作負載時,分析工具會嘗試連線至 EMR 持久性 UI 以擷取金鑰 Spark 資訊。 此處會記錄 EMR 持久性 UI 考量事項。
-
Glue Studio Spark UI:分析 AWS Glue 工作負載時,分析工具會嘗試透過從 Amazon S3 剖析使用者的 Spark 事件日誌來擷取金鑰 Spark 資訊。 此處會記錄允許的 Spark 事件日誌大小上限:滾動日誌為 512 MB 和 2 GB。
-
程式碼建議:僅支援 PySpark 工作負載的 Amazon EMR-EC2 和 AWS Glue 工作負載
-
區域資源:Spark 疑難排解代理程式是區域性,並使用該區域中的基礎 EMR 資源進行疑難排解程序。不支援跨區域疑難排解。