Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
API native de contrôle d'accès affinée avec liste d'autorisations Spark PySpark
Pour garantir la sécurité et le contrôle de l'accès aux données, le contrôle d'accès fin (FGAC) de Spark restreint certaines fonctions. PySpark Ces restrictions sont appliquées par le biais de :
-
Blocage explicite qui empêche l'exécution de fonctions
-
Incompatibilités d'architecture qui rendent les fonctions non fonctionnelles
-
Fonctions susceptibles de générer des erreurs, de renvoyer des messages d'accès refusé ou de ne rien faire lorsqu'elles sont appelées
Les PySpark fonctionnalités suivantes ne sont pas prises en charge dans Spark FGAC :
-
Opérations RDD (bloquées par Spark RDDUnsupported Exception)
-
Spark Connect (non pris en charge)
-
Spark Streaming (non pris en charge)
Bien que nous ayons testé les fonctions répertoriées dans un environnement Native Spark FGAC et confirmé qu'elles fonctionnent comme prévu, nos tests ne portent généralement que sur l'utilisation de base de chaque API. Les fonctions comportant plusieurs types d'entrées ou des chemins logiques complexes peuvent présenter des scénarios non testés.
Pour les fonctions qui ne sont pas répertoriées ici et qui ne font pas clairement partie des catégories non prises en charge ci-dessus, nous vous recommandons de :
-
Les tester d'abord dans un environnement gamma ou dans le cadre d'un déploiement à petite échelle
-
Vérifier leur comportement avant de les utiliser en production
Note
Si vous voyez une méthode de classe répertoriée mais pas sa classe de base, la méthode devrait toujours fonctionner. Cela signifie simplement que nous n'avons pas vérifié explicitement le constructeur de la classe de base.
L' PySpark API est organisée en modules. La prise en charge générale des méthodes au sein de chaque module est détaillée dans le tableau ci-dessous.
| Nom du module | Statut | Remarques |
|---|---|---|
|
pyspark_core |
Pris en charge |
Ce module contient les principales classes RDD, et ces fonctions ne sont généralement pas prises en charge. |
|
pyspark_sql |
Pris en charge |
|
|
pyspark_testing |
Pris en charge |
|
|
pyspark_resource |
Pris en charge |
|
|
pyspark_streaming |
Bloqué |
L'utilisation du streaming est bloquée dans Spark FGAC. |
|
pyspark_mllib |
Experimental |
Ce module contient des opérations ML basées sur RDD, et ces fonctions ne sont généralement pas prises en charge. Ce module n'a pas fait l'objet de tests approfondis. |
|
pyspark_ml |
Experimental |
Ce module contient des opérations ML DataFrame basées sur le langage machine, et ces fonctions sont pour la plupart prises en charge. Ce module n'a pas fait l'objet de tests approfondis. |
|
pyspark_pandas |
Pris en charge |
|
|
pyspark_pandas_slow |
Pris en charge |
|
| pyspark_connect |
Bloqué |
L'utilisation de Spark Connect est bloquée dans Spark FGAC. |
| pyspark_pandas_connect |
Bloqué |
L'utilisation de Spark Connect est bloquée dans Spark FGAC. |
| pyspark_pandas_slow_connect |
Bloqué |
L'utilisation de Spark Connect est bloquée dans Spark FGAC. |
| pyspark_errors |
Experimental |
Ce module n'a pas fait l'objet de tests approfondis. Les classes d'erreur personnalisées ne peuvent pas être utilisées. |
Liste des API autorisées
Pour une liste téléchargeable et plus facile à rechercher, un fichier contenant les modules et les classes est disponible dans les fonctions Python autorisées dans Native FGAC.