Tipos de extensão do PySpark
Os tipos usados pelas extensões de PySpark do AWS Glue.
DataType
A classe base para outros tipos do AWS Glue.
__init__(properties={})
-
properties– Propriedades do tipo de dados (opcional).
typeName(cls)
Retorna o tipo da classe do AWS Glue (ou seja, o nome da classe com "Tipo" removido do final).
-
cls– Uma instância de classe do AWS Glue derivada deDataType.
jsonValue( )
Retorna um objeto JSON que contém o tipo de dados e as propriedades da classe:
{ "dataType": typeName, "properties": properties }
Derivativos AtomicType e Simple
Herda e estende a classe DataType e serve como a classe base para todos os tipos de dados atômicos do AWS Glue.
fromJsonValue(cls, json_value)
Inicializa uma instância de classe com valores de um objeto JSON.
-
cls– Uma instância de classe de tipo do AWS Glue a ser inicializada. -
json_value– O objeto JSON de onde os pares de valor-chave serão carregados.
Os seguintes tipos são derivados simples da classe AtomicType:
BinaryType– Dados binários.BooleanType– Valores boolianos.ByteType– Um valor de bytes.DateType– Um valor de data e hora.DoubleType– Um valor com ponto flutuante duplo.IntegerType– Um valor inteiro.LongType– Um valor inteiro extenso.NullType– Um valor nulo.ShortType– Um valor inteiro curto.StringType– Uma string de texto.TimestampType– Um valor de data e hora (geralmente em segundos, a partir de 01/01/1970).UnknownType– Um valor de tipo não identificado.
DecimalType(AtomicType)
Herda e estende a classe AtomicType para representar um número decimal (um número expresso em dígitos decimais, em oposição aos números binários de base 2).
__init__(precision=10, scale=2, properties={})
-
precision- O número de dígitos no número decimal (opcional; o padrão é 10). -
scale– O número de dígitos à direita da vírgula decimal (opcional, o padrão é 2). -
properties– As propriedades do número decimal (opcional).
EnumType(AtomicType)
Herda e estende a classe AtomicType para representar uma enumeração de opções válidas.
__init__(options)
-
options– Uma lista de opções sendo enumeradas.
tipos de coleção
ArrayType(DataType)
__init__(elementType=UnknownType(), properties={})
-
elementType– O tipo dos elementos na matriz (opcional, o padrão é UnknownType). -
properties– Propriedades da matriz (opcional).
ChoiceType(DataType)
__init__(choices=[], properties={})
-
choices– Uma lista das opções possíveis (opcional). -
properties– As propriedades dessas opções (opcional).
add(new_choice)
Adiciona uma nova opção à lista de opções possíveis.
-
new_choice– A opção a ser adicionada à lista de opções possíveis.
merge(new_choices)
Combina uma lista de novas opções com a lista de opções existentes.
-
new_choices– Uma lista de novas opções a ser combinada com a lista de opções existentes.
MapType(DataType)
__init__(valueType=UnknownType, properties={})
-
valueType– O tipo dos valores no mapa (opcional, o padrão é UnknownType). -
properties– Propriedades do mapa (opcional).
Field(Object)
Cria um objeto de campo de um objeto que deriva de DataType.
__init__(name, dataType, properties={})
-
name– O nome a ser atribuído ao campo. -
dataType– O objeto a ser criado a partir de um campo. -
properties– Propriedades do campo (opcional).
StructType(DataType)
Define uma estrutura de dados (struct).
__init__(fields=[], properties={})
-
fields– Uma lista dos campos (do tipoField) a ser incluída na estrutura (opcional). -
properties– Propriedades da estrutura (opcional).
add(field)
-
field– Um objeto do tipoFielda ser adicionado à estrutura.
hasField(field)
Retorna True se essa estrutura tiver um campo com o mesmo nome ou False caso contrário.
-
field– O nome de um campo ou um objeto do tipoFieldcujo nome está sendo usado.
getField(field)
-
field: um nome de um campo ou um objeto do tipoFieldcujo nome está sendo usado. Se a estrutura tiver um campo com o mesmo, ele será retornado.
EntityType(DataType)
__init__(entity, base_type, properties)
Esta classe ainda não foi implementada.
outros tipos
DataSource(object)
__init__(j_source, sql_ctx, name)
-
j_source– A fonte de dados. -
sql_ctx– O contexto SQL. -
name– O nome da fonte de dados.
setFormat(format, **options)
-
format– O formato a ser configurado para a fonte de dados. -
options– Uma coleção de opções a ser configurada para a fonte de dados. Para obter mais informações sobre essas opções de formato, consulte Opções de formato de dados para entradas e saídas no AWS Glue para Spark.
getFrame()
Retorna um DynamicFrame para a fonte de dados.
DataSink(object)
__init__(j_sink, sql_ctx)
-
j_sink– O depósito a ser criado. -
sql_ctx– O contexto SQL para o depósito de dados.
setFormat(format, **options)
-
format– O formato a ser configurado para o depósito de dados. -
options– Uma coleção de opções a ser configurada para o depósito de dados. Para obter mais informações sobre essas opções de formato, consulte Opções de formato de dados para entradas e saídas no AWS Glue para Spark.
setAccumulableSize(size)
-
size– O tamanho acumulável a ser configurado, em bytes.
writeFrame(dynamic_frame, info="")
-
dynamic_frame– ODynamicFramea ser escrito. -
info– Informações sobre oDynamicFrame(opcional).
write(dynamic_frame_or_dfc, info="")
Escreve DynamicFrame ou DynamicFrameCollection.
-
dynamic_frame_or_dfc– Um objetoDynamicFrameouDynamicFrameCollectiona ser escrito. -
info– Informações sobreDynamicFrameouDynamicFramesa serem escritas (opcional).