View a markdown version of this page

API native de contrôle d'accès affinée avec liste d'autorisations Spark PySpark - Amazon EMR

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

API native de contrôle d'accès affinée avec liste d'autorisations Spark PySpark

Pour garantir la sécurité et le contrôle de l'accès aux données, le contrôle d'accès fin (FGAC) de Spark restreint certaines fonctions. PySpark Ces restrictions sont appliquées par le biais de :

  • Blocage explicite qui empêche l'exécution de fonctions

  • Incompatibilités d'architecture qui rendent les fonctions non fonctionnelles

  • Fonctions susceptibles de générer des erreurs, de renvoyer des messages d'accès refusé ou de ne rien faire lorsqu'elles sont appelées

Les PySpark fonctionnalités suivantes ne sont pas prises en charge dans Spark FGAC :

  • Opérations RDD (bloquées par Spark RDDUnsupported Exception)

  • Spark Connect (non pris en charge)

  • Spark Streaming (non pris en charge)

Bien que nous ayons testé les fonctions répertoriées dans un environnement Native Spark FGAC et confirmé qu'elles fonctionnent comme prévu, nos tests ne portent généralement que sur l'utilisation de base de chaque API. Les fonctions comportant plusieurs types d'entrées ou des chemins logiques complexes peuvent présenter des scénarios non testés.

Pour les fonctions qui ne sont pas répertoriées ici et qui ne font pas clairement partie des catégories non prises en charge ci-dessus, nous vous recommandons de :

  • Les tester d'abord dans un environnement gamma ou dans le cadre d'un déploiement à petite échelle

  • Vérifier leur comportement avant de les utiliser en production

Note

Si vous voyez une méthode de classe répertoriée mais pas sa classe de base, la méthode devrait toujours fonctionner. Cela signifie simplement que nous n'avons pas vérifié explicitement le constructeur de la classe de base.

L' PySpark API est organisée en modules. La prise en charge générale des méthodes au sein de chaque module est détaillée dans le tableau ci-dessous.

Nom du module Statut Remarques

pyspark_core

Pris en charge

Ce module contient les principales classes RDD, et ces fonctions ne sont généralement pas prises en charge.

pyspark_sql

Pris en charge

pyspark_testing

Pris en charge

pyspark_resource

Pris en charge

pyspark_streaming

Bloqué

L'utilisation du streaming est bloquée dans Spark FGAC.

pyspark_mllib

Experimental

Ce module contient des opérations ML basées sur RDD, et ces fonctions ne sont généralement pas prises en charge. Ce module n'a pas fait l'objet de tests approfondis.

pyspark_ml

Experimental

Ce module contient des opérations ML DataFrame basées sur le langage machine, et ces fonctions sont pour la plupart prises en charge. Ce module n'a pas fait l'objet de tests approfondis.

pyspark_pandas

Pris en charge

pyspark_pandas_slow

Pris en charge

pyspark_connect

Bloqué

L'utilisation de Spark Connect est bloquée dans Spark FGAC.

pyspark_pandas_connect

Bloqué

L'utilisation de Spark Connect est bloquée dans Spark FGAC.

pyspark_pandas_slow_connect

Bloqué

L'utilisation de Spark Connect est bloquée dans Spark FGAC.

pyspark_errors

Experimental

Ce module n'a pas fait l'objet de tests approfondis. Les classes d'erreur personnalisées ne peuvent pas être utilisées.

Liste des API autorisées

Pour une liste téléchargeable et plus facile à rechercher, un fichier contenant les modules et les classes est disponible dans les fonctions Python autorisées dans Native FGAC.