View a markdown version of this page

API nativa di Spark con elenco consentito per il controllo degli accessi PySpark - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

API nativa di Spark con elenco consentito per il controllo degli accessi PySpark

Per mantenere i controlli di sicurezza e accesso ai dati, il controllo granulare degli accessi di Spark (FGAC) limita determinate funzioni. PySpark Queste restrizioni vengono applicate tramite:

  • Blocco esplicito che impedisce l'esecuzione della funzione

  • Incompatibilità dell'architettura che rendono le funzioni non funzionali

  • Funzioni che possono generare errori, restituire messaggi di accesso negato o non eseguire alcuna operazione quando vengono chiamate

Le seguenti PySpark funzionalità non sono supportate in Spark FGAC:

  • Operazioni RDD (bloccate con Spark Exception) RDDUnsupported

  • Spark Connect (non supportato)

  • Spark Streaming (non supportato)

Sebbene abbiamo testato le funzioni elencate in un ambiente FGAC Spark nativo e confermato che funzionano come previsto, i nostri test in genere coprono solo l'utilizzo di base di ciascuna API. Le funzioni con più tipi di input o percorsi logici complessi possono presentare scenari non testati.

Per tutte le funzioni non elencate qui e che non rientrano chiaramente nelle categorie non supportate di cui sopra, consigliamo di:

  • Testarle prima in un ambiente gamma o in una distribuzione su piccola scala

  • Verifica del loro comportamento prima di utilizzarli in produzione

Nota

Se vedi elencato un metodo di classe ma non la sua classe base, il metodo dovrebbe comunque funzionare, significa solo che non abbiamo verificato esplicitamente il costruttore della classe base.

L' PySpark API è organizzata in moduli. Il supporto generale per i metodi all'interno di ciascun modulo è dettagliato nella tabella seguente.

Nome del modulo Stato Note

pyspark_core

Supportata

Questo modulo contiene le classi RDD principali e queste funzioni per lo più non sono supportate.

pyspark_sql

Supportata

pyspark_testing

Supportata

pyspark_resource

Supportata

pyspark_streaming

Bloccato

L'utilizzo dello streaming è bloccato in Spark FGAC.

pyspark_mllib

sperimentale

Questo modulo contiene operazioni ML basate su RDD e queste funzioni per lo più non sono supportate. Questo modulo non è stato testato a fondo.

pyspark_ml

sperimentale

Questo modulo contiene operazioni di DataFrame machine learning basate e queste funzioni sono per lo più supportate. Questo modulo non è stato testato a fondo.

pyspark_pandas

Supportata

pyspark_pandas_slow

Supportata

pyspark_connect

Bloccato

L'utilizzo di Spark Connect è bloccato in Spark FGAC.

pyspark_pandas_connect

Bloccato

L'utilizzo di Spark Connect è bloccato in Spark FGAC.

pyspark_pandas_slow_connect

Bloccato

L'utilizzo di Spark Connect è bloccato in Spark FGAC.

pyspark_errors

sperimentale

Questo modulo non è stato testato a fondo. Le classi di errore personalizzate non possono essere utilizzate.

Elenco delle API consentite

Per un elenco scaricabile e più facile da cercare, un file con i moduli e le classi è disponibile nelle funzioni Python consentite in Native FGAC.