数据收集 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

数据收集

您可以从 AWS 内的各种来源收集数据,但为您的使用案例选择正确的数据收集工具非常重要。下图显示了数据收集阶段如何融入数据工程自动化和访问控制生命周期。

数据收集图

AWS 提供以下数据收集工具:

  • Amazon Kinesis 可帮助您收集流数据。Kinesis 还提供无缝集成和处理功能。

  • AWS Database Migration Service(AWS DMS)可帮助您从关系数据库中摄取数据。AWS DMS 具有配置选项,并且能够直接连接本地数据库服务和托管在 AWS 上的数据库服务,例如 Amazon Simple Storage Service(Amazon S3)。

  • AWS Glue 是一款提取、转换、加载(ETL)工具,可帮助您摄取非结构化数据。

使用 Amazon S3 存储来收集非结构化或半结构化数据有多种使用案例。例如,制造现场的数据收集使用案例可能需要摄取历史数据,包括机器历史数据(XML 文件)、事件数据(JSON 文件)以及来自关系数据库的采购数据。此使用案例还可能要求必须联接所有三个数据来源。

在开始数据摄取过程之前,我们建议您了解必须摄取哪些数据,然后选择正确的工具来收集此数据。