技术评测 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

技术评测

技术评测之所以重要,是因为它为您提供公司已具备的现有技术能力图。评测涵盖数据治理、数据摄取、数据转换、数据共享、机器学习(ML)平台、流程和自动化。 

以下是您在技术评测期间可以提出的问题示例(按团队)。您可以根据具体情况添加问题。

数据工程团队

  • 团队当前面临哪些与摄取数据相关的挑战? 

  • 团队是否需要任何无法摄取的外部或内部数据来源? 为什么无法使用?

  • 您从哪些类型的数据来源摄取数据(例如,MySQL 数据库、Salesforce API、收到的文件、网站导航数据)?

  • 从新的数据来源摄取数据需要多长时间?

  • 从新来源摄取数据的过程是否已实现自动化?

  • 开发团队从其应用程序中发布用于分析的事务数据有多容易?

  • 您是否拥有用于从数据来源进行完全加载或增量加载(批量或微批量)的工具?

  • 您是否拥有从数据库进行持续加载的更改数据捕获(CDC)工具?

  • 您是否拥有用于数据摄取的数据流选项?

  • 您如何对批量数据和实时数据进行数据转换?

  • 您如何管理数据转换工作流程的编排?

  • 您最常执行哪些活动:数据发现和编目、数据摄取、数据转换、帮助业务分析师、帮助数据科学家、数据治理、培训团队和用户?

  • 创建数据集时,如何对其进行数据隐私分类? 如何清理数据,使其对内部使用者有意义?

  • 数据治理和数据管理是集中式还是分散式?

  • 如何强制执行数据治理? 是否有自动化流程?

  • 管线各分阶段(数据摄取、数据处理、数据共享、数据使用)的数据所有者和管理者是谁? 是否存在用于确定所有者和管理者的数据域概念?

  • 通过访问控制在组织内共享数据集时面临的主要挑战是什么?

  • 是否使用基础设施即代码(IaC)部署和管理数据管线?

  • 是否有数据湖策略? 

    • 数据湖在整个组织内是分布式还是集中式? 

  • 如何组织您的数据目录? 是全公司范围还是按领域划分?

  • 是否已落实数据湖仓方法?

  • 是否使用或计划使用数据网格概念?

您可以通过 AWS Well-Architected Framework Data Analytics Lens 来补充这些问题。

业务分析团队

  • 您将如何描述可用于工作的数据的以下特征:

    • 清洁度

    • Quality

    • 分类

    • 元数据

    • 业务意义

  • 您的团队是否参与了所在领域中数据集的业务术语表定义?

  • 如果在需要时没有完成工作所需的数据会有什么影响?

  • 是否能举例说明无法访问数据或者需要很长时间才能获得数据的场景? 获取所需数据需要多长时间?

  • 由于技术问题或处理时间,使用小于实际所需数据集的频率如何?

  • 您是否拥有具备所需规模和工具的沙盒环境?

  • 您是否能进行 A/B 测试来验证假设?

  • 您是否缺少完成工作所需的任何工具?

    • 哪些类型的工具?

    • 为什么无法使用?

  • 是否有您没有时间执行的重要活动?

  • 哪些活动最耗时?

  • 业务视图如何刷新?

    • 其是否自动安排和管理?

  • 在哪些场景中,您需要比所获得数据更新的数据?

  • 如何共享分析? 使用哪些工具和流程进行共享?

  • 您是否经常创建新的数据产品并将其提供给其他团队?

    • 您与其他业务领域或整个公司共享数据产品的流程是什么?

数据科学团队(用于确定模型部署)

  • 您将如何描述可用于工作的数据的以下特征:

    • 清洁度

    • Quality

    • 分类

    • 元数据

    • 意义

  • 您是否拥有用于训练、测试和部署机器学习(ML)模型的自动化工具?

  • 您是否拥有用于执行 ML 模型创建和部署过程中每个步骤的计算机大小选项?

  • ML 模型如何投入生产?

  • 部署新模型的步骤有哪些? 这些步骤的自动化程度如何?

  • 您是否拥有用于训练、测试和部署批处理和实时数据 ML 模型的组件? 

  • 您是否能使用和处理足够大的数据集,代表创建模型所需的数据?

  • 如何监控模型并采取措施进行重新训练?

  • 如何衡量模型对业务的影响?

  • 您是否能进行 A/B 测试来验证业务团队的假设?

有关其他问题,请参阅 AWS Well-Architected Framework Machine Learning Lens