表属性 - Managed Service for Apache Flink

适用于 Apache Flink 的亚马逊托管服务(亚马逊 MSF)以前被称为适用于 Apache Flink 的亚马逊 Kinesis Data Analytics。

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

表属性

除了数据字段外,您的 AWS Glue 表还使用表格属性向 Studio 笔记本提供其他信息。适用于 Apache Flink 的托管服务使用以下 AWS Glue 表格属性:

要向 AWS Glue 表中添加属性,请执行以下操作:

  1. 登录 AWS Management Console 并打开 AWS Glue 控制台,网址为https://console.aws.amazon.com/glue/

  2. 从表的列表中,选择应用程序用于存储其数据连接信息的表。选择 “操作”、“编辑表格详细信息”。

  3. 在 “表属性” 下,输入 “managed-flink.proctime” 和 user_action_time”。

定义 Apache Flink 的时间值

Apache Flink 提供了描述何时发生流处理事件的时间值,例如处理时间和事件时间要将这些值包含在应用程序输出中,需要在 AWS Glue 表上定义属性,告诉 Apache Flink 托管服务 Flink 运行时将这些值发送到指定字段中。

您在表属性中使用的键和值如下所示:

时间戳类型
处理时间 managed-flink.proctim AWS Glue 将用于显示值的列名。此列名与现有表列不对应。
活动时间 managed-flink.rowtime AWS Glue 将用于显示值的列名。此列名对应于现有的表列。

managed-flink.waterm。 column_name.mliseconds

水印间隔(以毫秒为单位)

使用 Flink 连接器和格式属性

您可以使用 AWS Glue 表属性向应用程序的 Flink 连接器提供有关数据源的信息。以下是 Managed Service for Apache Flink 用于连接器的一些属性示例:

连接器类型
Kafka format 用于反序列化和序列化 Kafka 消息的格式,例如或。json csv
scan.startup.mode Kafka 消费者的启动模式,例如earliest-offsettimestamp
Kinesis format 用于反序列化和序列化 Kinesis 数据流记录的格式,例如或。json csv
aws.region 定义直播的 AWS 区域。
S3(文件系统) format 用于反序列化和序列化文件的格式,例如或。json csv
path 亚马逊 S3 路径,例如 s3://mybucket/

有关除 Kinesis 和 Apache Kafka 之外的其他连接器的更多信息,请参阅您的连接器文档。