View a markdown version of this page

API nativa de controle de acesso refinado do Spark com lista de permissões PySpark - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

API nativa de controle de acesso refinado do Spark com lista de permissões PySpark

Para manter a segurança e os controles de acesso aos dados, o controle de acesso refinado (FGAC) do Spark restringe determinadas funções. PySpark Essas restrições são aplicadas por meio de:

  • Bloqueio explícito que impede a execução da função

  • Incompatibilidades de arquitetura que tornam as funções não funcionais

  • Funções que podem gerar erros, retornar mensagens de acesso negado ou não fazer nada quando chamadas

Os seguintes PySpark recursos não são compatíveis com o Spark FGAC:

  • Operações RDD (bloqueadas com a exceção do Spark) RDDUnsupported

  • Spark Connect (não suportado)

  • Spark Streaming (não suportado)

Embora tenhamos testado as funções listadas em um ambiente Native Spark FGAC e confirmado que elas funcionam conforme o esperado, nossos testes normalmente abrangem apenas o uso básico de cada API. Funções com vários tipos de entrada ou caminhos lógicos complexos podem ter cenários não testados.

Para qualquer função não listada aqui e que não faça parte claramente das categorias não suportadas acima, recomendamos:

  • Testando-os primeiro em um ambiente gama ou em uma implantação em pequena escala

  • Verificando seu comportamento antes de usá-los na produção

nota

Se você ver um método de classe listado, mas não sua classe base, o método ainda deve funcionar — significa apenas que não verificamos explicitamente o construtor da classe base.

A PySpark API é organizada em módulos. O suporte geral para métodos em cada módulo está detalhado na tabela abaixo.

Nome do módulo Status Observações

pyspark_core

Compatível

Este módulo contém as principais classes do RDD e, na maioria das vezes, essas funções não são suportadas.

pyspark_sql

Compatível

teste_de_pyspark

Compatível

pyspark_resource

Compatível

pyspark streaming

Bloqueado

O uso do streaming está bloqueado no Spark FGAC.

pyspark_mllib

Experimental

Este módulo contém operações de ML baseadas em RDD, e essas funções geralmente não são suportadas. Este módulo não foi totalmente testado.

pyspark_ml

Experimental

Esse módulo contém operações de ML DataFrame baseadas, e essas funções são suportadas principalmente. Este módulo não foi totalmente testado.

pyspark_pandas

Compatível

pyspark_pandas_slow

Compatível

pyspark_connect

Bloqueado

O uso do Spark Connect está bloqueado no Spark FGAC.

pyspark_pandas_connect

Bloqueado

O uso do Spark Connect está bloqueado no Spark FGAC.

pyspark_pandas_slow_connect

Bloqueado

O uso do Spark Connect está bloqueado no Spark FGAC.

pyspark_errors

Experimental

Este módulo não foi totalmente testado. Classes de erro personalizadas não podem ser utilizadas.

Lista de permissões da API

Para uma lista que pode ser baixada e mais fácil de pesquisar, um arquivo com os módulos e classes está disponível nas funções do Python permitidas no FGAC nativo.