设计和实施以数据为中心的现代架构使用案例的最佳实践 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

设计和实施以数据为中心的现代架构使用案例的最佳实践

Apoorva Patrikar,Amazon Web Services(AWS)

2023 年 5 月文档历史记录

各组织越来越多地从以应用程序为中心的架构转向以数据为中心的架构,在这种架构中,IT 基础设施、应用程序开发甚至业务流程都是围绕数据需求设计的。在以数据为中心的架构中,数据是核心 IT 资产,您可以设计 IT 系统和流程来优化数据。

本指南提供了针对您的使用案例设计以数据为中心的现代架构的最佳实践。您可以使用这些最佳实践来实现数据管线和支持该管线的数据工程运营的现代化。本指南还概述了数据管线中数据的生命周期。通过了解此生命周期,您可以构建数据管线来优化数据。

您可以使用本指南来克服许多组织在为数据管线设计以数据为中心的架构时所面临的以下挑战:

  • 不愿存储同一数据集的多个版本:经常多次处理数据的情况并不少见,但是这种方法有其局限性。事实上,避免多次处理数据通常可以减少资源消耗,降低成本。本指南向您展示了采用不同方法的好处,这种方法侧重于分多个阶段存储已处理的数据。

  • 不愿接受数据湖:要分辨数据湖的各种营销宣传可能很困难,而且要确定您的组织是否具备将数据湖融入 IT 系统和流程所需的技能和资源也可能具有挑战性。本指南可以帮助您了解数据湖如何成为以数据为中心的架构中的有用组件。

  • 招聘足够的数据工程师:市场趋势表明,虽然数据科学家不具备适当的数据工程技能,但他们仍有望在许多组织中执行数据工程任务。此技能差距可能会影响您的上市时间计划。本指南可以帮助您更好地了解哪些数据工程技能对于设计以数据为中心的架构至关重要。

  • 缺乏有关使用 AWS 服务进行水平处理的知识:水平处理或分布式处理使集群能够通过将任务映射到多个节点并在将结果透明地发送给用户之前收集结果,来并行处理数据块。向水平处理的转变代表了查看和处理数据的转变。这种转变不仅会影响应用程序逻辑或应用程序本身,还会影响组织处理数据的方式。例如,水平处理会影响中央存储、任务分配和模块化。水平处理也有利于使用更大的数据块进行读写操作。本指南解释了水平处理如何适用于您的数据管线。