View a markdown version of this page

Spark ネイティブのきめ細かなアクセスコントロールの許可リストに登録された PySpark API - Amazon EMR

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Spark ネイティブのきめ細かなアクセスコントロールの許可リストに登録された PySpark API

セキュリティとデータアクセスコントロールを維持するために、Spark のきめ細かなアクセスコントロール (FGAC) は特定の PySpark 関数を制限します。これらの制限は、以下を通じて適用されます。

  • 関数の実行を妨げる明示的なブロック

  • 関数を機能させないアーキテクチャの非互換性

  • エラーをスローしたり、アクセス拒否メッセージを返したり、呼び出されたときに何もしない関数

Spark FGAC では、次の PySpark 機能はサポートされていません。

  • RDD オペレーション (SparkRDDUnsupportedException でブロック)

  • Spark Connect (サポートされていません)

  • Spark ストリーミング (サポートされていません)

Native Spark FGAC 環境でリストされた関数をテストし、期待どおりに動作することを確認しましたが、テストは通常、各 API の基本的な使用のみを対象としています。複数の入力タイプまたは複雑なロジックパスを持つ関数には、テストされていないシナリオがある場合があります。

ここに記載されておらず、上記のサポートされていないカテゴリに明確に含まれていない関数については、次のことをお勧めします。

  • ガンマ環境または小規模デプロイで最初にテストする

  • 本番環境で使用する前に動作を検証する

注記

クラスメソッドがリストされているが、そのベースクラスが表示されていない場合でも、そのメソッドは機能します。つまり、ベースクラスコンストラクタを明示的に検証していないということです。

PySpark API はモジュールで構成されています。各モジュール内のメソッドの一般的なサポートについては、以下の表で詳しく説明します。

モジュール名 ステータス 注意事項

pyspark_core

サポート

このモジュールには主要な RDD クラスが含まれており、これらの関数はほとんどサポートされていません。

pyspark_sql

サポート

pyspark_testing

サポート

pyspark_resource

サポート

pyspark_streaming

ブロック

ストリーミングの使用は Spark FGAC でブロックされます。

pyspark_mllib

実験的

このモジュールには RDD ベースの ML オペレーションが含まれており、これらの関数はほとんどサポートされていません。このモジュールは徹底的にテストされていません。

pyspark_ml

実験的

このモジュールには DataFrame ベースの ML オペレーションが含まれており、これらの関数は主にサポートされています。このモジュールは徹底的にテストされていません。

pyspark_pandas

サポート

pyspark_pandas_slow

サポート

pyspark_connect

ブロック

Spark Connect の使用が Spark FGAC でブロックされます。

pyspark_pandas_connect

ブロック

Spark Connect の使用が Spark FGAC でブロックされます。

pyspark_pandas_slow_connect

ブロック

Spark Connect の使用が Spark FGAC でブロックされます。

pyspark_errors

実験的

このモジュールは徹底的にテストされていません。カスタムエラークラスは使用できません。

API 許可リスト

ダウンロード可能で検索しやすいリストの場合、モジュールとクラスを含むファイルは、ネイティブ FGAC で許可されている Python 関数で使用できます。