View a markdown version of this page

Native, feinkörnige Spark-API für die Zugriffskontrolle auf der Zulassungsliste PySpark - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Native, feinkörnige Spark-API für die Zugriffskontrolle auf der Zulassungsliste PySpark

Um die Sicherheit und die Datenzugriffskontrollen aufrechtzuerhalten, schränkt Spark Fine-Grained Access Control (FGAC) bestimmte Funktionen ein. PySpark Diese Einschränkungen werden durchgesetzt durch:

  • Explizites Blockieren, das die Funktionsausführung verhindert

  • Architekturinkompatibilitäten, die Funktionen funktionsunfähig machen

  • Funktionen, die Fehler auslösen, Meldungen zurückgeben, bei denen der Zugriff verweigert wurde, oder die beim Aufruf nichts bewirken

Die folgenden PySpark Funktionen werden in Spark FGAC nicht unterstützt:

  • RDD-Operationen (mit Spark-Ausnahme blockiert) RDDUnsupported

  • Spark Connect (nicht unterstützt)

  • Spark Streaming (nicht unterstützt)

Wir haben die aufgelisteten Funktionen zwar in einer nativen Spark-FGAC-Umgebung getestet und bestätigt, dass sie erwartungsgemäß funktionieren, aber unsere Tests decken in der Regel nur die grundlegende Nutzung der einzelnen APIs ab. Für Funktionen mit mehreren Eingabetypen oder komplexen Logikpfaden gibt es möglicherweise noch nicht getestete Szenarien.

Für alle Funktionen, die hier nicht aufgeführt sind und nicht eindeutig zu den oben genannten, nicht unterstützten Kategorien gehören, empfehlen wir:

  • Testen Sie sie zuerst in einer Gamma-Umgebung oder in kleinem Maßstab

  • Überprüfung ihres Verhaltens, bevor sie in der Produktion eingesetzt werden

Anmerkung

Wenn eine Klassenmethode aufgeführt ist, aber nicht ihre Basisklasse, sollte die Methode trotzdem funktionieren. Das bedeutet nur, dass wir den Basisklassenkonstruktor nicht explizit verifiziert haben.

Die PySpark API ist in Module unterteilt. Die allgemeine Unterstützung für Methoden innerhalb der einzelnen Module ist in der folgenden Tabelle detailliert beschrieben.

Module name (Modulname) Status Hinweise

pyspark_core

Unterstützt

Dieses Modul enthält die wichtigsten RDD-Klassen, und diese Funktionen werden meistens nicht unterstützt.

pyspark_sql

Unterstützt

pyspark_testing

Unterstützt

pyspark_resource

Unterstützt

pyspark_streaming

Blocked

Die Streaming-Nutzung ist in Spark FGAC blockiert.

pyspark_mllib

Experimentell

Dieses Modul enthält RDD-basierte ML-Operationen, und diese Funktionen werden größtenteils nicht unterstützt. Dieses Modul wurde nicht gründlich getestet.

pyspark_ml

Experimentell

Dieses Modul enthält DataFrame basierte ML-Operationen, und diese Funktionen werden größtenteils unterstützt. Dieses Modul wurde nicht gründlich getestet.

pyspark_pandas

Unterstützt

pyspark_pandas_langsam

Unterstützt

pyspark_connect

Blocked

Die Nutzung von Spark Connect ist in Spark FGAC blockiert.

pyspark_pandas_connect

Blocked

Die Nutzung von Spark Connect ist in Spark FGAC blockiert.

pyspark_pandas_slow_connect

Blocked

Die Nutzung von Spark Connect ist in Spark FGAC blockiert.

pyspark_errors

Experimentell

Dieses Modul wurde nicht gründlich getestet. Benutzerdefinierte Fehlerklassen können nicht verwendet werden.

API-Zulassungsliste

Für eine herunterladbare und einfacher zu durchsuchende Liste ist eine Datei mit den Modulen und Klassen unter Python-Funktionen verfügbar, die in Native FGAC erlaubt sind.