Tipi di estensione PySpark
Tipi usati dalle estensioni PySpark AWS Glue.
DataType
Classe di base per gli altri tipi AWS Glue.
__init__(properties={})
-
properties: proprietà del tipo di dati (opzionale).
typeName(cls)
Restituisce il tipo per la classe di tipo AWS Glue (ovvero il nome della classe senza "Type" nella parte finale).
-
cls: un'istanza di classe AWS Glue derivata daDataType.
jsonValue( )
Restituisce un oggetto JSON contenente il tipo di dati e le proprietà della classe:
{ "dataType": typeName, "properties": properties }
AtomicType e derivate semplici
Eredita dalla classe DataType e la estende e funge da classe di base per tutti i tipi di dati atomici AWS Glue.
fromJsonValue(cls, json_value)
Inizializza un'istanza di classe con valori da un oggetto JSON.
-
cls: un'istanza di classe di tipo AWS Glue da inizializzare. -
json_value: l'oggetto JSON dal quale caricare coppie chiave-valore.
I seguenti tipi sono derivate semplici della classe AtomicType:
BinaryType: i dati binari.BooleanType: i valori booleani.ByteType: un valore di byte.DateType: un valore datetime.DoubleType: un valore doppio in virgola mobile.IntegerType: un valore intero.LongType: un valore intero lungo.NullType: un valore nullo.ShortType: un valore intero breve.StringType: una stringa di testo.TimestampType: un valore di timestamp (in genere in secondi dal 1/1/1970).UnknownType: un valore di tipo non identificato.
DecimalType(AtomicType)
Eredita la classe AtomicType e la estende per rappresentare un numero decimale (un numero espresso in cifre decimali, opposto ai numeri binari in base 2).
__init__(precision=10, scale=2, properties={})
-
precision: il numero di cifre nel numero decimale (opzionale; il valore predefinito è 10). -
scale: il numero di cifre alla destra del punto decimale (opzionale; il valore predefinito è 2). -
properties: le proprietà del numero decimale (opzionale).
EnumType(AtomicType)
Eredita la classe AtomicType e la estende per rappresentare un'enumerazione delle opzioni valide.
__init__(options)
-
options: un elenco delle opzioni enumerate.
Tipi di raccolta
ArrayType(DataType)
__init__(elementType=UnknownType(), properties={})
-
elementType: il tipo di elementi nella matrice (opzionale; l'impostazione predefinita è UnknownType). -
properties: proprietà del tipo di matrice (opzionale).
ChoiceType(DataType)
__init__(choices=[], properties={})
-
choices: un elenco di possibili scelte (opzionale). -
properties: proprietà di queste opzioni (opzionale).
add(new_choice)
Aggiunge una nuova opzione all'elenco di scelte possibili.
-
new_choice: l'opzione da aggiungere all'elenco di scelte possibili.
merge(new_choices)
Unisce un elenco di nuove opzioni con quello esistente.
-
new_choices: un elenco di nuove opzioni da unire con quelle esistenti.
MapType(DataType)
__init__(valueType=UnknownType, properties={})
-
valueType: il tipo di valori nella mappa (opzionale; l'impostazione predefinita è UnknownType). -
properties: proprietà della mappa (opzionale).
Field(Object)
Consente di creare un oggetto campo al di fuori di un oggetto che deriva da DataType.
__init__(name, dataType, properties={})
-
name: il nome da assegnare al campo. -
dataType: l'oggetto dal quale creare un campo. -
properties: proprietà del campo (opzionale).
StructType(DataType)
Definisce una struttura di dati (struct).
__init__(fields=[], properties={})
-
fields: un elenco dei campi (di tipoField) da includere nella struttura (opzionale). -
properties: proprietà della struttura (opzionale).
add(field)
-
field: un oggetto di tipoFieldda aggiungere alla struttura.
hasField(field)
Restituisce True se questa struttura ha un campo con lo stesso nome, altrimenti False.
-
field: un nome campo o un oggetto di tipoFielddi cui viene utilizzato il nome.
getField(field)
-
field: un nome campo o un oggetto di tipoFielddi cui viene utilizzato il nome. Se la struttura ha un campo con lo stesso nome, viene restituito.
EntityType(DataType)
__init__(entity, base_type, properties)
Questa classe non è ancora implementata.
Altri tipi
DataSource(object)
__init__(j_source, sql_ctx, name)
-
j_source: l'origine dei dati. -
sql_ctx: il contesto SQL. -
name: il nome data-source.
setFormat(format, **options)
-
++
format: il formato da impostare per l'origine dei dati. -
options: un insieme di opzioni da impostare per l'origine dati. Per ulteriori informazioni sulle opzioni di formato, consulta la pagina Opzioni del formato dati per input e output in AWS Glue per Spark.
getFrame()
Restituisce un DynamicFrame per l'origine dati.
DataSink(object)
__init__(j_sink, sql_ctx)
-
j_sink: il sink da creare. -
sql_ctx: il contesto SQL per il sink dei dati.
setFormat(format, **options)
-
format: il formato da impostare per il sink dei dati. -
options: insieme di opzioni da impostare per il sink dei dati. Per ulteriori informazioni sulle opzioni di formato, consulta la pagina Opzioni del formato dati per input e output in AWS Glue per Spark.
setAccumulableSize(size)
-
size: la dimensione accumulabile da impostare, in byte.
writeFrame(dynamic_frame, info="")
-
dynamic_frame: ilDynamicFrameda scrivere. -
info: informazioni sulDynamicFrame(opzionale).
write(dynamic_frame_or_dfc, info="")
Scrive un DynamicFrame o una DynamicFrameCollection.
-
dynamic_frame_or_dfc: un oggettoDynamicFrameo un oggettoDynamicFrameCollectionda scrivere. -
info: informazioni sullaDynamicFrameoDynamicFramesda scrivere (opzionale).