使用连接文本文件中的数据 DataBrew - AWS Glue DataBrew

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用连接文本文件中的数据 DataBrew

您可以为 DataBrew 支持的输入文件配置以下格式选项:

  • 逗号分隔值(CSV)文件

    • 分隔符

      对于 .csv 文件,默认分隔符是逗号。如果您的文件使用不同的分隔符,请在创建数据集时在其他配置部分中为 CSV 分隔符选择分隔符。.csv 文件支持以下分隔符:

      • 逗号(,)

      • 冒号(:)

      • 分号(;)

      • 竖线(|)

      • 制表符(\t)

      • 插入符号(^)

      • 反斜杠(\)

      • 空格

    • 列标题值

      您的 CSV 文件可以包含标题行作为文件的第一行。如果不是,则为你 DataBrew 创建一个标题行。

      • 如果 CSV 文件包含标题行,请选择将第一行当作标题。如果这样做,则 CSV 文件的第一行将被视为包含列标题值。

      • 如果 CSV 文件不包含标题行,请选择添加默认标题。如果这样做,则会为文件 DataBrew 创建一个标题行,并且不会将您的第一行数据视为包含标题值。 DataBrew 创建的标题由下划线和文件中每列的数字组成Column_1,格式为Column_2Column_3、、等。

  • JSON 文件

    DataBrew 支持 JSON 文件的两种格式,即 JSON 行和 JSON 文档。JSON Lines 文件每行包含一行数据。在 JSON 文档文件中,所有行都包含在单个 JSON 结构或数组中。创建 JSON 数据集时,可以在其他配置部分指定您的 JSON 文件类型。默认格式为 JSON Lines。

  • Excel 文件

    以下内容适用于中的 Excel 工作表 DataBrew:

    • Excel 工作表加载

      默认情况下, DataBrew 加载您的 Excel 文件中的第一张工作表。但是,在创建 Excel 数据集时,可以在其他配置部分指定不同的工作表编号或工作表名称。

    • 列标题值

      您的 Excel 工作表可以将标题行作为文件的第一行,但如果没有,则 DataBrew 会为您创建一个标题行。

      • 如果 Excel 工作表包含标题行,请选择将第一行当作标题。如果这样做,Excel 工作表的第一行将被视为包含列标题值。

      • 如果 Excel 文件不包含标题行,请选择添加默认标题。通过这样做,您可以指定 DataBrew应该为文件创建标题行,而不是将您的第一行数据视为包含标题值。 DataBrew创建的标题由下划线和文件中每列的数字组成Column_1,格式为Column_2Column_3、、等。