本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在 Amazon Data Firehose 中对流数据进行分区
动态分区使您能够使用数据中的键(例如 customer_id 或 transaction_id)对 Firehose 中的流数据进行连续分区,然后将按这些键分组的数据传输到相应的 Amazon Simple Storage Service(Amazon S3)前缀。这使得使用各种服务(例如亚马逊雅典娜、亚马逊EMR、Amazon Redshift Spectrum 和亚马逊)可以更轻松地对亚马逊S3中的流数据进行高性能、具有成本效益的分析。 QuickSight此外,在需要额外处理的 AWS 用例中,在动态分区的流数据传输到 Amazon S3 之后,Glue 可以执行更复杂的提取、转换和加载 (ETL) 任务。
对数据进行分区可以最大限度地减少扫描的数据量,优化性能,并降低在 Amazon S3 上进行分析查询的成本, 还可以提高对数据的精细访问。传统上,Firehose 流用于捕获数据并将其加载到 Amazon S3 中。要对 Amazon S3-based Analytics 的流数据集进行分区,您需要先在 Amazon S3 存储桶之间运行分区应用程序,然后才能将数据提供给分析,这可能会变得复杂或昂贵。
通过动态分区,Firehose 使用动态或静态定义的数据键连续对传输中的数据进行分组,并按键将数据传输到各个 Amazon S3 前缀。这样可以缩短几分钟或几小时的洞察时间,还可以降低成本并简化架构。