本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
数据集丰富
数据集丰富是 Amazon Quick Sight 中的一项功能,它使数据集作者能够向其数据集添加丰富的语义元数据。通过提供描述、自定义说明和结构化元数据,您可以确保人类消费者和人工智能驱动的代理都了解数据集的含义以及如何使用它。
数据集丰富概述
数据集丰富使作者和作者专业人士能够在数据集级别和列级别使用语义上下文对数据集进行注释。此元数据将原始数据与业务环境联系起来。它为两个受众提供服务:
-
数据集使用者(其他作者、读者专业人士)— 获得更好的业务背景,了解每个数据集包含的内容、其目的和适当的用例。
-
AI 代理 — 通过数据集问答回答问题时,接收更丰富的上下文信息,以生成更准确的查询和解释。
数据集丰富组件
数据集级别的扩展
重要
请勿在 “数据集描述” 或 “自定义说明” 字段中添加敏感信息。所有数据集查看者都可以看到此信息。
- 数据集描述
-
业务层面的摘要,包括数据集所代表的内容、范围和预期用途。用户界面中的所有数据集使用者都可以看到此描述,这有助于他们快速了解数据集的用途。最大长度:5,000 个字符。
- 自定义说明
-
AI 代理专门使用的自由格式文本指令。这些说明指导 AI 如何解释、查询和推理数据集。最大长度:5,000 个字符。
- 文件上传
-
您可以上传一个 YAML、JSON 或 TXT 格式的文件,其中包含从第三方工具(例如 Databricks、dbt 或 Alation)导出的目录级语义元数据。这样一来,即可在一次上传中提取数百个列定义、业务规则和指标计算,从而无需手动 column-by-column输入。最大长度:50,000 个字符。
列级扩充
- 文件夹
-
将列组织成逻辑分组,以便于浏览和理解。
- 栏目描述
-
对每列所代表的内容、其有效值和业务含义的易于理解的描述。最大长度:500 个字符。
- 其他注意事项
-
每列的补充上下文,例如数据质量注意事项、相关表格或常见分析模式。最大长度:2,000 个字符。
数据集扩充的好处
-
更准确的人工智能驱动的数据集问答 — 更丰富的语义上下文可帮助 AI 代理生成更精确的 SQL 查询和解释,从而获得更好的答案。
-
让消费者更好地理解 — 描述和元数据可帮助组织中的所有用户了解数据集包含的内容以及如何正确使用它们。
-
缩放来自外部目录的元数据 — “文件上传” 允许作者通过单个操作从第三方目录工具中导入丰富的元数据,而不必逐列手动输入定义。
权限和要求
拥有企业版许可证的作者和作者专业人士可以丰富他们拥有或管理的任何数据集。
访问数据集扩展
要访问数据集扩展,请完成以下步骤。
-
在数据准备体验中保存您的数据集。
-
选择 Output(输出)选项卡。
-
输入数据集描述和自定义说明,或上传语义元数据文件。
撰写有效的自定义说明
自定义指令是数据集丰富中最具影响力的组成部分。他们直接指导 AI 代理如何解释和查询数据集。以下是有效和无效的自定义指令示例。
不错的自定义说明
示例 1 — 收入数据集
This dataset contains net revenue after returns and discounts, calculated on an accrual basis. Revenue is recognized at the point of sale for retail transactions and upon delivery confirmation for B2B orders. All figures are in USD. The 'revenue' column specifically excludes taxes, shipping fees, and promotional credits. For year-over-year comparisons, use the 'fiscal_year' field rather than 'calendar_year' as our fiscal year runs April–March.
它为何有效:
-
澄清含糊不清的术语(净收入与总收入)
-
定义计算方法
-
指定货币和排除项
-
提供有关如何正确使用特定字段的指导
示例 2-客户数据集
Customer status definitions: 'Active' = purchased within last 12 months; 'Dormant' = 12–24 months since last purchase; 'Churned' = 24+ months inactive. The 'customer_segment' field uses RFM analysis (Recency, Frequency, Monetary). 'Lifetime_value' is calculated as total historical spend, not predictive LTV. When analyzing customer counts, always filter out 'is_test_account = true' to exclude internal test data.
它为何有效:
-
定义业务逻辑和阈值
-
解释首字母缩略词和方法
-
警告数据质量注意事项
-
指导正确筛选以进行准确分析
无效的自定义指令
示例-客户数据集
Contains customer information including names, addresses, purchase history, and other details. Use this for customer analysis.
为什么它无效:
-
描述从列名中已经显而易见的内容
-
不提供业务背景或定义
-
不提供有关数据质量、计算或正确使用方法的指导
-
无助于人工智能区分相似的概念
编写出色的自定义指令的关键原则
-
澄清歧义 — 定义可以有多种解释的术语。
-
解释业务逻辑-记录计算、阈值和分类。
-
提供上下文-包括单位、时间段、货币和范围。
-
指南用法-解释用于特定分析的字段。
-
警告边缘情况 — 记录数据质量问题、测试记录或特殊情况。
-
要具体 — 使用具体的例子和精确的语言。
两种语义丰富方法
基于用户界面的手动注释
数据集作者通过 Quick Sight 界面直接添加数据集和列描述以及自定义说明。Quick Sight 在用户界面中突出显示描述,帮助所有用户了解数据集内容、列定义和相应的用例。
从外部目录上传文件
数据集作者可以从外部目录中导出语义元数据,并通过 API 或 UI 以 YAML、JSON 或 TXT 格式为每个数据集附加一个文件。虽然这些信息由 AI 模型使用而不是显示在用户界面中,但它可以大规模实现目录级元数据。
消费层:数据集问答
数据集问答是使用数据集丰富元数据的消费层。它使用户可以直接针对他们有权访问的数据集提出开放式的自然语言问题,而无需预先构建的仪表板或手动配置的主题。
AI 代理通过以下方式使用丰富上下文:
-
资产发现-代理使用数据集描述和语义元数据为用户的问题识别正确的数据集。
-
Text-to-SQL 生成 — 自定义指令、列描述和上传的元数据可指导 AI 生成更准确的 SQL 查询。
-
受管控的响应-所有响应都遵循行级安全 (RLS) 和列级安全 (CLS) 规则。
如果不进行扩展,AI 代理就只有列名和数据类型可供使用,这些名称和数据类型通常含糊不清。通过充实,代理将获得所需的完整业务背景,以便:
-
消除相似的领域和概念的歧义
-
应用正确的计算和筛选器
-
了解特定于业务的阈值和分类
-
排除测试数据并适当地处理边缘情况
向数据集添加语义上下文后,用户可以在问答中引用该数据集并通过聊天进行查询。AI 代理使用添加的元数据来提供更准确的响应。
Summary
数据集丰富功能可将语义元数据添加到数据集中,以进行 AI 驱动的分析。通过花几分钟时间添加描述、自定义说明和元数据文件,数据集作者可以提高基于人工智能的问答的准确性,同时让组织中的每位消费者都更容易理解和访问他们的数据集。