在 Amazon Data Firehose 中对流数据进行分区

动态分区使您能够使用数据中的键（例如 customer_id 或 transaction_id）对 Firehose 中的流数据进行连续分区，然后将按这些键分组的数据传输到相应的 Amazon Simple Storage Service（Amazon S3）前缀。这使得使用各种服务（例如亚马逊雅典娜、亚马逊EMR、Amazon Redshift Spectrum 和亚马逊）可以更轻松地对亚马逊S3中的流数据进行高性能、具有成本效益的分析。 QuickSight此外，在需要额外处理的 AWS 用例中，在动态分区的流数据传输到 Amazon S3 之后，Glue 可以执行更复杂的提取、转换和加载 (ETL) 任务。

对数据进行分区可以最大限度地减少扫描的数据量，优化性能，并降低在 Amazon S3 上进行分析查询的成本, 还可以提高对数据的精细访问。传统上，Firehose 流用于捕获数据并将其加载到 Amazon S3 中。要对 Amazon S3-based Analytics 的流数据集进行分区，您需要先在 Amazon S3 存储桶之间运行分区应用程序，然后才能将数据提供给分析，这可能会变得复杂或昂贵。

通过动态分区，Firehose 使用动态或静态定义的数据键连续对传输中的数据进行分组，并按键将数据传输到各个 Amazon S3 前缀。这样可以缩短几分钟或几小时的洞察时间，还可以降低成本并简化架构。

主题

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

备份源记录

启用动态分区