Recopilación de datos - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Recopilación de datos

Puede recopilar los datos de diversos orígenes en AWS, pero es importante elegir la herramienta de recopilación de datos adecuada para su caso de uso. En el diagrama siguiente se muestra cómo la etapa de recopilación de los datos se adapta al ciclo de vida de la ingeniería de datos, la automatización y el control de acceso.

Diagrama de recopilación de datos

AWS proporciona las herramientas siguientes de recopilación de datos:

  • Amazon Kinesis le es útil para recopilar los datos de streaming. Kinesis también ofrece funcionalidades de integración y procesamiento perfectas.

  • AWS Database Migration Service (AWS DMS) le es útil para ingerir los datos de las bases de datos relacionales. AWS DMS tiene opciones de configuración y conexiones directas entre los servicios en las instalaciones y de bases de datos, como Amazon Simple Storage Service (Amazon S3), alojados en AWS.

  • AWS Glue es una herramienta de extracción, transformación y carga (ETL) que ayuda a ingerir los datos no estructurados.

Existen varios casos de uso para recopilar los datos no estructurados o semiestructurados mediante Amazon S3 como almacenamiento. Por ejemplo, un caso de uso de recopilación de datos en una planta de fabricación podría requerir la ingesta de datos históricos como archivos XML, datos de eventos como archivos JSON y datos de compras de una base de datos relacional. Este caso de uso también podría requerir la unión de los tres orígenes de datos.

Antes de iniciar el proceso de ingesta de datos, le recomendamos comprender qué datos deben ingerirse y, a continuación, elija la herramienta adecuada para recopilarlos.