什麼是 Amazon EMR 的 Apache Spark 升級代理程式 - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

什麼是 Amazon EMR 的 Apache Spark 升級代理程式

簡介

適用於 Amazon EMR 的 Apache Spark 升級代理程式是一種對話式 AI 功能,可加速 EMR 應用程式的 Apache Spark 版本升級。傳統 Spark 升級需要數月的工程工作來分析 API 變更、解決相依性衝突,以及驗證功能正確性。代理程式透過自然語言提示、自動化程式碼轉換和資料品質驗證來簡化升級程序。

您可以使用 代理程式升級在 Amazon EMR on EC2 和 Amazon EMR Serverless 上執行的 PySpark 和 Scala 應用程式。代理程式會分析您的程式碼、識別必要的變更,並執行自動化轉換,同時維持您對所有修改的核准控制。

架構概觀

升級代理程式有三個主要元件:開發環境中任何與 MCP 相容的互動 AI 助理、處理用戶端和 MCP 伺服器之間安全通訊的 的 MCP Proxy AWS,以及為 Amazon EMR 提供專用 Spark 升級工具的 Amazon SageMaker Unified Studio Managed MCP Server (預覽版)。此圖表說明如何透過 AI 助理與 Amazon SageMaker Unified Studio Managed MCP Server 互動。

Apache Spark 升級代理程式

AI 助理將依照下列步驟,使用 MCP 伺服器提供的專用工具來協調升級:

  1. 規劃:代理程式會分析您的專案結構,並產生或修改引導end-to-end Spark 升級程序的升級計劃。

  2. 編譯和建置:代理程式會更新建置環境和相依性、編譯專案,並反覆修正建置和測試失敗。

  3. Spark 程式碼編輯工具:代理程式會套用目標程式碼更新來解決 Spark 版本不相容問題,修正建置時間和執行時間錯誤。

  4. 執行與驗證:代理程式會將遠端驗證任務提交至 EMR、監控執行和日誌,並反覆修正執行時間和資料品質問題。

  5. 觀測性:代理程式會使用 EMR 可觀測性工具追蹤升級進度,並允許使用者隨時檢視升級分析和狀態。

如需每個步驟的主要工具清單使用 Spark 升級工具,請參閱 。