在 AWS Glue DataBrew 中使用数据集 - AWS Glue DataBrew

在 AWS Glue DataBrew 中使用数据集

要在 DataBrew 控制台中查看数据集列表,请选择左侧的数据集。在数据集页面中,您可以通过单击每个数据集的名称或从其上下文菜单中选择操作编辑来查看每个数据集的详细信息。

要创建新数据集,请选择数据集连接新数据集。不同的数据源有不同的连接参数,请输入这些参数,以便 DataBrew 可以建立连接。保存连接并选择创建数据集时,DataBrew 会连接到您的数据并开始加载数据。有关更多信息,请参阅 连接到数据

数据集页面包含以下元素,可帮助您浏览数据。

数据集预览:在此选项卡上,您可以找到数据集的连接信息以及数据集整体结构的概览,如下所示。

Dataset details and preview showing metadata and sample rows from a JSON file stored in S3.

数据剖析概览:在此选项卡上,您可以找到数据集的统计数据和容量指标的图形数据配置文件,如下所示。

Data profile overview showing dataset summary, data types, missing cells, and correlations.
注意

要创建数据配置文件,请对您的数据集运行 DataBrew 剖析作业。有关如何执行此操作的信息,请参阅 步骤 5:创建数据配置文件

列统计数据:在此选项卡上,您可以找到有关数据集中每列的详细统计数据,如下所示。

Data profile overview showing column statistics, data quality, and value distribution for a dataset.

数据血统:此选项卡以图形方式显示您数据集的创建方式,以及在 DataBrew 中的使用方式,如下所示。

Data lineage diagram showing dataset creation and usage flow in DataBrew.