本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
数据仓库架构
数据仓库
业务分析师、数据工程师、数据科学家和决策者可通过商业智能(BI)工具、SQL 客户端及其他分析应用程序访问数据仓库。架构包含多个层:用于呈现结果的前端客户端、用于数据访问与分析的分析引擎,以及用于数据加载与存储的数据库服务器。
数据以表和列的形式存储在数据库中,并按模式进行组织。数据仓库整合来自多个来源的数据,支持历史数据分析,并确保数据质量、一致性和准确性。将分析处理与事务数据库分开可以增强两个系统的性能,通过高效存储数据来支持报告、仪表板和分析工具,从而最大限度地减少 I/O 查询结果并将其快速提供给大量并发用户。
主要特征
-
整合:将来自不同来源(例如,CRM、ERP)的数据整合到统一的模式中,解决格式或命名规范不一致的问题。
-
时变:跟踪历史数据,支持数月或数年的趋势分析。
-
以主题为导向:围绕销售或库存等业务领域(而非基于运营流程)组织数据。
-
非易失性:数据在存储后保持静态;更新通过定期的提取、转换、加载(ETL)流程(而非实时更改)进行。
-
成本优化:SAP 数据与非 SAP 数据存储在成本优化的架构中。
架构组件
-
ETL 工具:自动完成从来源提取数据、转换(清洗与标准化)数据并将数据加载至仓库这一流程。
-
存储层:
-
结构化数据的关系数据库
-
用于多维分析的 OLAP(联系分析处理)立方体
-
-
元数据:描述数据来源、转换和关系。
-
访问工具:SQL 客户端、BI 平台和机器学习接口。
数据仓库利用分层架构对不同粒度的数据进行组织,这有助于确保数据的一致性和灵活性。最常见的数据仓库架构层包括源层、暂存层、仓库层和使用层。SAP 系统的数据仓库同样采用基于层的架构。在构建 SAP 云数据仓库的背景下AWS。该架构涉及用于数据采集、存储、转换和消费的几个关键层和组件。
企业级存储
Amazon S3 Intelligent-Tiering 是一种可自动优化存储成本的存储类别,可根据数据访问模式的变化,在不同访问层间迁移数据。这可确保频繁访问的数据随时可用,同时将访问频率较低的数据或“冷”数据存储在成本更低的层中。有关更多详细信息,您可以参阅 Amazon S3 存储类别
操作型数据存储层
Amazon Redshift 用于实现操作型数据存储、传播和数据集市功能。提供脚本以创建数据模式并部署数据定义语言(DDL),且包含加载 SAP 源数据所需的结构。 DDLs 可以对其进行自定义,使其包含特定于 SAP 的字段。
数据传播层
通过 Glue 作业加载到 S3 中的增量数据用于生成缓慢变化的维度类型 2 (SCD2) 表,这些表保留了完整的更改历史记录。
数据集市层
利用 Redshift 中的实体化视图构建结构化的数据集市模型。事务数据通过主数据(属性和文本)进行扩充,从而构建出可直接用于数据使用的分析模型。
《在AWS解决方案基础上构建 SAP 数据仓库指南