AWS Data Pipeline 现已不再向新客户提供。AWS Data Pipeline 的现有客户可以继续正常使用该服务。了解更多
什么是 AWS Data Pipeline?
注意
AWS Data Pipeline 服务处于维护模式,没有计划新功能或区域扩展。要了解更多信息并了解如何迁移现有工作负载,请参阅 从 AWS Data Pipeline 迁移工作负载。
AWS Data Pipeline 是一项 Web 服务,您可用于自动处理数据的移动和转换。使用 AWS Data Pipeline,您可以定义数据驱动的工作流,这样任务就可以依赖于前面任务的成功执行。您可以定义数据转换的参数,AWS Data Pipeline 将实施您设置的逻辑。
AWS Data Pipeline 的以下组件协同工作来管理您的数据:
-
管道定义 指定数据管理的业务逻辑。有关更多信息,请参阅 管道定义文件语法。
-
管道通过创建 Amazon EC2 实例以执行定义的工作活动,来计划和运行任务。您将管道定义上传到管道,然后激活管道。您可以编辑正在运行的管道的管道定义,并重新激活管道以使其生效。您可以停用管道,修改数据源,然后重新激活管道。完成使用管道后可以将其删除。
-
任务运行程序将轮询任务,然后执行这些任务。例如,任务运行程序可以将日志文件复制到 Amazon S3 并启动 Amazon EMR 集群。任务运行程序已安装,并将在管道定义所创建的资源上自动运行。您可以编写自定义任务运行程序应用程序,也可以使用 AWS Data Pipeline 提供的任务运行程序应用程序。有关更多信息,请参阅 任务运行程序。
例如,您每天可使用 AWS Data Pipeline 将 Web 服务器的日志存档到 Amazon Simple Storage Service(Amazon S3),然后每周对这些日志运行 Amazon EMR(Amazon EMR)集群以生成流量报告。AWS Data Pipeline 计划每日任务来复制数据,并计划每周任务来启动 Amazon EMR 集群。AWS Data Pipeline 还确保 Amazon EMR 在等待最后一天的数据上传到 Amazon S3 后,再开始其分析,即使存在不可预知的日志上传延迟。
访问 AWS Data Pipeline
可以使用以下任意接口创建、访问和管理管道:
-
AWS 管理控制台 提供您可用来访问 AWS Data Pipeline 的 Web 界面。
-
AWS Command Line Interface (AWS CLI)提供了适用于大量 Amazon Web Services(包括 AWS Data Pipeline)的命令,并在 Windows、macOS 和 Linux 上受支持。有关安装 AWS CLI 的更多信息,请参阅 AWS Command Line Interface
。有关 AWS Data Pipeline 命令的列表,请参阅 datapipeline。 -
AWS 开发工具包 — 提供特定于语言的 API,并关注许多连接详细信息,例如计算签名、处理请求重试和错误处理。有关更多信息,请参阅 AWS 软件开发工具包
。 -
查询 API 提供了您使用 HTTPS 请求调用的低级别 API。使用查询 API 是用于访问 AWS Data Pipeline 的最直接的方式,但需要您的应用程序处理低级别的详细信息,例如生成哈希值以签署请求以及进行错误处理。有关详细信息,请参阅 AWS Data Pipeline API 参考。
定价
对于 Amazon Web Services,您只需按实际用量付费。对于 AWS Data Pipeline,您按照活动频率、计划运行的先决条件和位置为管道付费。有关更多信息,请参阅 AWS Data Pipeline 定价
如果您的 Amazon Web Services account 不到 12 个月,您就有资格使用免费套餐。免费套餐包括每月免费 3 个低频率先决条件和 5 个低频率活动。有关更多信息,请参阅 AWS Free Tier