Classe FillMissingValues
La classe FillMissingValues individua i valori null e stringhe vuote in un DynamicFrame specificato e utilizza metodi di machine learning, come la regressione lineare e la foresta casuale, per prevedere i valori mancanti. Il processo ETL utilizza i valori nel set di dati di input per addestrare il modello di machine learning, che prevede quindi quali devono essere i valori mancanti.
Suggerimento
Se si utilizzano set di dati incrementali, ogni set incrementale viene utilizzato come dati di addestramento per il modello di machine learning, pertanto i risultati potrebbero non essere molto accurati.
Per l'importazione:
from awsglueml.transforms import FillMissingValues
Metodi
apply(frame, missing_values_column, output_column ="", transformation_ctx ="", info ="", stageThreshold = 0, totalThreshold = 0)
Riempie i valori mancanti di un frame dinamico in una colonna specificata e restituisce un frame dinamico con stime in una nuova colonna. Per le righe senza valori mancanti, il valore della colonna specificato viene duplicato nella nuova colonna.
frameilDynamicFramein cui inserire i valori mancanti. Obbligatorio.missing_values_column: la colonna contenente valori mancanti (valorinulle stringhe vuote). Obbligatorio.output_column: il nome della nuova colonna che conterrà i valori stimati per tutte le righe il cui valore era mancante. Facoltativo; il valore di default è il nome dimissing_values_columncon suffisso formato da"_filled".transformation_ctx: una stringa univoca utilizzata per identificare informazioni sullo stato (opzionale).info: una stringa associata a errori nella trasformazione (opzionale).stageThreshold: il numero massimo di errori che si possono verificare nella trasformazione prima che venga arrestata (opzionale; il numero predefinito è zero).totalThreshold: il numero massimo di errori che si possono verificare in totale prima che l'elaborazione venga arrestata (opzionale; il numero predefinito è zero).
Restituisce un nuovo DynamicFrame con una colonna aggiuntiva che contiene stime per le righe con valori mancanti e il valore attuale per le altre righe.