Spark 原生精細存取控制允許列出的 PySpark API

為了維護安全性和資料存取控制，Spark 精細存取控制 (FGAC) 會限制某些 PySpark 函數。這些限制是透過下列方式強制執行：

Spark FGAC 不支援下列 PySpark 功能：

雖然我們已在原生 Spark FGAC 環境中測試列出的函數並確認它們如預期般運作，但我們的測試通常僅涵蓋每個 API 的基本使用。具有多個輸入類型或複雜邏輯路徑的函數可能會有未經測試的案例。

對於此處未列出且未明確屬於上述不支援類別的任何函數，我們建議：

如果您看到列出類別方法，但未列出其基本類別，則該方法仍應正常運作，這只是表示我們尚未明確驗證基本類別建構函數。

PySpark API 會組織成模組。下表詳細說明了每個模組內方法的一般支援。

模組名稱	狀態	備註
pyspark_core	支援	此模組包含主要 RDD 類別，大部分不支援這些函數。
pyspark_sql	支援
pyspark_testing	支援
pyspark_resource	支援
pyspark_streaming	封鎖	Spark FGAC 中的串流用量遭到封鎖。
pyspark_mllib	實驗性	此模組包含以 RDD 為基礎的 ML 操作，而且這些函數大部分不受支援。此模組未經過徹底測試。
pyspark_ml	實驗性	此模組包含以 DataFrame 為基礎的 ML 操作，且大部分支援這些函數。此模組未經過徹底測試。
pyspark_pandas	支援
pyspark_pandas_slow	支援
pyspark_connect	封鎖	Spark FGAC 中的 Spark Connect 用量遭到封鎖。
pyspark_pandas_connect	封鎖	Spark FGAC 中的 Spark Connect 用量遭到封鎖。
pyspark_pandas_slow_connect	封鎖	Spark FGAC 中的 Spark Connect 用量遭到封鎖。
pyspark_errors	實驗性	此模組未經過徹底測試。無法使用自訂錯誤類別。

API 允許清單

為了提供可下載且更容易搜尋的清單，具有模組和類別的檔案可在原生 FGAC 中允許的 Python 函數中使用。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

考量事項

Amazon EMR on EC2 的 Lake Formation 完整資料表存取