使用 AWS Glue 和 Athena 保持更新目标表中的数据 - AWS Step Functions

使用 AWS Glue 和 Athena 保持更新目标表中的数据

本示例项目演示了如何使用 AWS Glue Catalog 查询目标表以获取当前数据,然后使用 Amazon Athena 从其他来源获取新数据进行更新。

在本项目中,Step Functions 状态机调用 AWS Glue Catalog 来验证 Amazon S3 存储桶中是否存在目标表。如果找不到表,它将创建一个新表。然后,Step Functions 将运行 Athena 查询,从不同的数据来源向目标表添加行:首先查询目标表以获取最近日期,然后查询源表以获取更多最新数据,并将其插入到目标表中。

第 1 步:创建状态机

  1. 打开 Step Functions 控制台,然后选择创建状态机

  2. 选择从模板创建,然后找到相关的入门模板。选择下一步以继续。

  3. 选择模板使用方式:

    1. 运行演示 — 创建只读状态机。审核后,您可以创建工作流和所有相关资源。

    2. 构建依据 — 提供可编辑的工作流定义,您可借助自有资源对其进行审核、定制并部署。(不会自动创建函数或队列等相关资源。)

  4. 选择使用模板继续进行选择。

    注意

    部署到您的账户的服务将会收取标准费用。

第 2 步:运行演示状态机

如果您选择了运行演示选项,则所有相关资源都将部署并准备好运行。如果您选择了构建依据选项,则可能需要先设置占位符值并创建其他资源,然后才能运行自定义工作流。

  1. 选择部署并运行

  2. 等待 CloudFormation 堆栈部署。这一过程耗时最多 10 分钟。

  3. 出现开始执行选项后,查看输入并选择开始执行

恭喜您!

现在,您应该有了一个正在运行的状态机演示。您可以在图表视图中选择状态来查看输入、输出、变量、定义和事件。