BUCKETIZATION - AWS Glue DataBrew

BUCKETIZATION

分桶(在控制台中称为分箱)获取一列数值中的各项,将它们分组到由数值范围定义的分箱,然后输出一个显示每行分箱的新列。可以通过拆分或百分比完成分桶。下面的第一个示例使用拆分,第二个示例使用百分比。

参数
  • sourceColumn:现有列的名称。

    targetColumn:要创建的新列的名称。

    bucketNames:存储桶名称列表。

    splits:存储桶级别列表。存储桶连续排列,存储桶的上限将是下一个存储桶的下限。

    percentage:每个存储桶将以百分比形式描述。

例 使用拆分的示例

{ "Action": { "Operation": "BUCKETIZATION", "Parameters": { "sourceColumn": "level", "targetColumn": "bin", "bucketNames": "[\"Bin1\",\"Bin2\",\"Bin3\"]", "splits": "[\"-Infinity\",\"2\",\"20\",\"Infinity\"]" } } }
例 使用百分比的示例
{ "Action": { "Operation": "BUCKETIZATION", "Parameters": { "sourceColumn": "level", "targetColumn": "bin", "bucketNames": "[\"Bin1\",\"Bin2\"]", "percentage": "50" } } }