Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Partición de datos de streaming en Amazon Data Firehose
El particionamiento dinámico le permite particionar continuamente los datos de streaming en Firehose mediante claves dentro de los datos (por ejemplo, customer_id
o transaction_id
) y, a continuación, entregar los datos agrupados mediante estas claves en los prefijos correspondientes de Amazon Simple Storage Service (Amazon S3). Esto facilita la ejecución de análisis rentables y de alto rendimiento en datos de streaming en Amazon S3 mediante diversos servicios, como Amazon Athena, Amazon EMR, Amazon Redshift Spectrum y Amazon. QuickSight Además, AWS Glue puede realizar tareas de extracción, transformación y carga (ETL) más sofisticadas después de que los datos de streaming particionados dinámicamente se entreguen a Amazon S3, en casos de uso en los que se requiera un procesamiento adicional.
El particionamiento de los datos minimiza la cantidad de datos analizados, optimiza el rendimiento y reduce los costos de las consultas de análisis en Amazon S3. También aumenta el acceso granular a los datos. Los flujos de Firehose se utilizan tradicionalmente para capturar y cargar datos en Amazon S3. Para particionar un conjunto de datos de streaming con el objetivo de llevar a cabo análisis basados en Amazon S3, tendría que ejecutar aplicaciones de particionamiento entre buckets de Amazon S3 antes de hacer que los datos estén disponibles para su análisis, lo que podría resultar complicado o costoso.
Con el particionamiento dinámico, Firehose agrupa continuamente los datos en tránsito mediante claves de datos definidas de forma dinámica o estática y entrega los datos a prefijos individuales de Amazon S3 por clave. Esto se reduce en minutos time-to-insight u horas. También reduce los costos y simplifica las arquitecturas.