FillMissingValues クラス
FillMissingValues クラスでは、指定された DynamicFrame の中で Null 値や空の文字列を特定し、欠落した値を推定するために、線形回帰やランダムフォレストなどの機械学習手法を使用します。ETL ジョブは、入力データセットの値を使用して機械学習モデルをトレーニングします。その後、欠落した値が予測されます。
ヒント
増分データセットを使用する場合、各増分セットが機械学習モデルのトレーニングデータとして使用されます。したがって、結果から正確性が損なわれることがあります。
インポートの対象:
from awsglueml.transforms import FillMissingValues
方法
apply(frame, missing_values_column, output_column ="", transformation_ctx ="", info ="", stageThreshold = 0, totalThreshold = 0)
指定された列の動的フレームの欠落値を埋め、推定値を含む新しい列を持つ新しいフレームを返します。欠落した値がない行の場合、指定した列の値が新しい列に複製されます。
- frame– 欠落値を埋める- DynamicFrame。必須。
- missing_values_column– 欠落値を含む列 (- null値や空の文字列)。必須。
- output_column– 値が欠落しているすべての行に推定値が埋められた新しい列の名前。デフォルトは、末尾に- "_filled"が付いた- missing_values_columnの名前です。
- transformation_ctx- 状態情報を識別するために使用される一意の文字列 (オプション)。
- info- 変換のエラーに関連付けられた文字列 (オプション)。
- stageThreshold- エラーが発生する前に変換で発生する可能性のあるエラーの最大数 (オプション、デフォルト値は 0)。
- totalThreshold- 処理がエラーを出す前に全体的に発生する可能性のあるエラーの最大数 (オプション、デフォルト値は 0)。
欠落値を持つ行の推定値と、他の行の現在値を含む、追加的な列を持つ新しい DynamicFrame を返します。