本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
创建 SQL 分析模板
先决条件
在创建 SQL 分析模板之前,您必须具备以下条件:
-
积极 AWS Clean Rooms 合作
-
访问协作中至少一个已配置的表
有关在中配置表的信息 AWS Clean Rooms,请参见在 AWS Clean Rooms中创建配置表。
-
创建分析模板的权限
-
SQL 查询语法的基础知识
以下过程描述了使用AWS Clean Rooms 控制台
有关如何使用创建 SQL 分析模板的信息 AWS SDKs,请参阅 AWS Clean Rooms API 参考。
创建 SQL 分析模板
-
登录 AWS 管理控制台 并打开AWS Clean Rooms 控制台,该控制台
将充当协作创建者。 AWS 账户 -
在左侧导航窗格中,选择协作。
-
选择协作。
-
在模板选项卡上,转到您创建的分析模板部分。
-
选择创建分析模板。
-
在创建分析模板页面上,对于详细信息,
-
输入分析模板的名称。
-
(可选)输入描述。
-
对于 “格式”,将 SQL 选项保留为选中状态。
-
-
对于表,查看与协作关联的配置表。
-
对于定义,
-
输入分析模板的定义。
-
选择导入自以导入定义。
-
(可选)在 SQL 编辑器中通过在参数名称前输入冒号 (
:) 来指定参数。例如:
WHERE table1.date + :date_period > table1.date
-
-
如果您之前添加了参数,请在参数 - 可选下,为每个参数名称选择类型和默认值(可选)。
-
对于合成数据,如果要生成用于模型训练的合成数据,请选中 “要求分析模板输出为合成数据” 复选框。
有关更多信息,请参阅隐私增强型合成数据集生成。
-
对于列分类,请从下拉列表中选择一个列。至少需要五列。
-
从下拉列表中选择一个分类。这标识了每列的数据类型。
分类类型包括:
-
数值-连续数值,例如测量值或计数
-
分类- 离散值或类别,例如标签或类型
-
-
要删除列,请选择删除。
-
要添加另一列,请选择添加另一列。从下拉列表中选择列和分类。
-
对于预测值,请从下拉列表中选择一列。这是自定义模型在合成数据集上训练后用于预测的列。
-
-
高级设置允许您设置隐私级别和隐私阈值。调整设置以满足您的需求。
-
在 “隐私级别” 中,输入 epsilon 值以确定合成模型为保护生成的数据集中的隐私而添加了多少噪点。该值必须介于 0.0001 和 10 之间。
-
较低的值会增加更多的噪音,从而提供更强的隐私保护,但可能会降低根据这些数据训练的下游自定义模型的效用。
-
值越高,噪音越小,精度越高,但可能会降低隐私保护。
在隐私阈值中,输入成员资格推断攻击可以识别原始数据集成员的最大允许概率。该值必须介于 50.0 和 100 之间。
-
50% 的分数表明成员资格推断攻击无法比随机猜测更好地区分成员和非成员。
-
如果没有隐私限制,请输入 100%。
最佳值取决于您的具体用例和隐私要求。如果超过隐私阈值,则机器学习输入通道的创建将失败,并且您无法使用合成数据集来训练模型。
-
-
警告
合成数据生成可以防止推断出个人属性,无论特定个体存在于原始数据集中,还是存在这些个体的学习属性。但是,它并不能阻止原始数据集中的文字值,包括个人身份信息 (PII) 出现在合成数据集中。
我们建议避免输入数据集中仅与一个数据主体关联的值,因为这些值可能会重新识别数据主体。例如,如果只有一个用户居住在邮政编码中,则合成数据集中存在该邮政编码将确认该用户位于原始数据集中。诸如截断高精度值或用其他目录替换不常见的目录之类的技术可以用来降低这种风险。这些转换可以是用于创建 ML 输入通道的查询的一部分。
-
-
如果要为资源启用标签,请选择添加新标签,然后输入密钥和值对。
-
选择创建。
-
现在,您可以通知您的协作成员他们可以查看分析模板。(如果您想查询自己的数据,则是可选的。)