启用记录格式转换 - Amazon Data Firehose

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

启用记录格式转换

如果您启用记录格式转换,则无法将亚马逊数据 Firehose 目标设置为亚马逊 OpenSearch 服务、亚马逊 Redshift 或 Splunk。启用格式转换后,Amazon S3 就是您可用于 Firehose 流的唯一目的地。下一节将介绍如何从控制台和 Firehose API 操作启用记录格式转换。有关如何使用设置记录格式转换的示例 CloudFormation,请参阅AWS::DataFirehose:: DeliveryStream

从控制台前期用记录格式转换

您可以在创建或更新 Firehose 流时在控制台上启用数据格式转换。启用数据格式转换后,Amazon S3 就是您可为 Firehose 流进行配置的唯一目的地。此外,启用格式转换时,系统将禁用 Amazon S3 压缩。但是,Snappy 压缩会作为自动转换过程的一部分自动进行。在这种情况下,Amazon Data Firehose 使用的 Snappy 的构造格式与 Hadoop 兼容。这意味着,您可以使用 Snappy 压缩的结果并在 Athena 中对这些数据运行查询。有关 Hadoop 所依赖的 Snappy 取景格式,请参阅.java。BlockCompressorStream

要对数据 Firehose 流启用数据格式转换
  1. 登录并打开 Amazon Data Firehose 控制台,网址为。 AWS 管理控制台https://console.aws.amazon.com/firehose/

  2. 选择要更新的 Firehose 流,或按照 教程:从控制台创建 Firehose 流 中的步骤创建新的 Firehose 流。

  3. 转换记录格式下,将记录格式转换设置为已启用

  4. 选择所需的输出格式。有关这两个选项的更多信息,请参阅 Apache ParquetApache ORC

  5. 选择一个 AWS Glue 表,为您的源记录指定架构。设置区域、数据库、表和表版本。

管理 Firehose API 的记录格式转换

如果你想让 Amazon Data Firehose 将你的输入数据格式从 JSON 转换为 Parquet 或 ORC,请在 extendedS3 或 Extended DestinationConfiguration S DataFormatConversionConfiguration3 中指定可选元素。DestinationUpdate如果您指定 DataFormatConversionConfiguration,则适用以下限制。