在 Amazon Athena 中使用 Apache Spark - Amazon Athena

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 Amazon Athena 中使用 Apache Spark

Amazon Athena 可讓您輕鬆使用 Apache Spark 以互動方式執行資料分析和探勘,而無需規劃、設定或管理資源。在 Athena 上執行 Apache Spark 應用程式表示提交 Spark 程式碼進行處理及直接接收結果,而不需要額外設定。Amazon Athena 上的 Apache Spark 是無伺服器,並提供自動的隨需擴展,可提供即時啟動運算,以滿足不斷變化的資料量和處理需求。

在發行版本 中PySpark 引擎版本 3,您可以使用 Amazon Athena 主控台中的簡化筆記本體驗,使用 Python 或 Athena 筆記本 APIs 開發 Apache Spark 應用程式。

在發行版本 中Apache Spark 3.5 版,您可以從 Amazon SageMaker Unified Studio 筆記本或您偏好的 Spark Connect 相容用戶端執行 Spark 程式碼。

Amazon Athena 提供如下功能:

  • 主控台用量 – 從 Amazon Athena 主控台提交 Spark 應用程式 (僅限 Pyspark 引擎器第 3 版)。

  • Scripting (指令碼編寫) – 在 Python 中快速且以互動方式建置和偵錯 Apache Spark 應用程式。

  • Dynamic scaling (動態擴展) – Amazon Athena 會自動判斷執行任務所需的運算和記憶體資源,並相應地將這些資源持續擴展到您指定的最大值。這種動態擴展可降低成本,而不影響速度。

  • 筆記本體驗 – 使用 Amazon SageMaker AI Unified Studio 筆記本,使用熟悉的界面建立、編輯和執行運算。在 Pyspark 引擎第 3 版中,您可以使用與 Jupyter 筆記本相容的 Athena 主控台內筆記本,其中包含依序執行做為計算的儲存格清單。儲存格內容可以包括程式碼、文字、Markdown、數學、圖和豐富媒體。

如需其他資訊,請參閱 AWS 巨量資料部落格在 Amazon Athena Spark 上執行 Spark SQL使用 Amazon Athena for Apache Spark 探索資料湖