识别和处理个人身份信息(PII)
在构建分析函数或机器学习模型时,您需要采取保护措施来防止个人身份信息(PII)数据泄露。PII 是可用于识别个人身份的个人数据,例如地址、银行账号或电话号码。例如,当数据分析师和数据科学家使用数据集来发现一般人口统计信息时,他们应无权访问特定个人的 PII。
DataBrew 提供了数据掩蔽机制,可在数据准备过程中模糊处理 PII 数据。根据组织的需求,有不同的 PII 数据编辑机制可用。您可以对 PII 数据进行模糊处理,这样用户便无法将其还原,也可以使模糊处理具有可逆性。
在 DataBrew 中识别和屏蔽 PII 数据涉及构建一组转换,客户可以使用这些转换来编辑 PII 数据。在此过程中,需要在 DataBrew 控制台的数据剖析概览仪表板中提供 PII 数据检测和统计信息。
您可以使用以下数据掩蔽方法:
替代:将 PII 数据替换为其他看起来真实的值。
随机排序:将同一列的值随机排序到不同的行中。
确定性加密:对列值应用确定性加密算法。确定性加密始终为值生成相同的加密文字。
概率加密:对列值应用概率加密算法。每次应用概率加密时都会生成不同的加密文字。
解密:根据加密密钥对列进行解密。
清空或删除:将特定字段替换为空值或删除该列。
屏蔽:将字符置乱或屏蔽列中的某些部分。
哈希:对列值应用哈希函数。
有关使用转换的更多信息,请参阅个人身份信息(PII)掩蔽步骤。有关使用剖析作业检测 PII 的更多信息,包括可以检测的实体类型列表,请参阅以编程方式构建剖析作业配置中的用于配置 PII 的 EntityDetectorConfiguration 部分。