

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 准备第三方输入数据
<a name="prepare-third-party-input-data"></a>

第三方数据服务提供的标识符可以与您的已知标识符相匹配。

AWS Entity Resolution 数据匹配服务 目前支持以下第三方数据提供商服务：


**数据提供商服务**  

| 公司名 | 可用 AWS 区域 | 标识符 | 
| --- | --- | --- | 
| LiveRamp | 美国东部（弗吉尼亚北部）（us-east-1）、美国东部（俄亥俄州）（us-east-2）和美国西部（俄勒冈）（us-west-2） | 坡道 ID | 
| TransUnion | 美国东部（弗吉尼亚北部）（us-east-1）、美国东部（俄亥俄州）（us-east-2）和美国西部（俄勒冈）（us-west-2） | TransUnion 个人和家庭 IDs | 
| 统一身份证 2.0 | 美国东部（弗吉尼亚北部）（us-east-1）、美国东部（俄亥俄州）（us-east-2）和美国西部（俄勒冈）（us-west-2） | 未处理的 UID 2 | 

以下步骤介绍如何准备第三方数据，以使用基于[提供商服务的匹配工作流程或基于](glossary.md#provider-service-matching)[提供商服务的身份映射](create-IDMW-provider-services-one-acct.md)工作流程。

**Topics**
+ [步骤 1：在上订阅提供商服务 AWS Data Exchange](#subscribe-provider-service)
+ [步骤 2：准备第三方数据表](#prepare-third-party-data-tables)
+ [步骤 3：以支持的数据格式保存输入数据表](#save-third-party-data-tables)
+ [步骤 4：将您的输入数据表上传到 Amazon S3](#upload-third-party-data-tables)
+ [步骤 5：创建 AWS Glue 表](#create-glue-table-third-party-data-tables)

## 步骤 1：在上订阅提供商服务 AWS Data Exchange
<a name="subscribe-provider-service"></a>

如果您通过订阅了提供商服务 AWS Data Exchange，则可以使用以下提供商服务之一运行匹配的工作流程，将您的已知标识符与您的首选提供商进行匹配。您的数据将与您的首选提供商定义的一组输入相匹配。

要在上订阅提供商服务 AWS Data Exchange

1. 在上查看提供商列表 AWS Data Exchange。以下提供商列表可用：
   + LiveRamp
     + [LiveRamp身份解析](https://aws.amazon.com/marketplace/pp/prodview-v4557zxjo6ykq)
     + [LiveRamp转码](https://aws.amazon.com/marketplace/pp/prodview-bpp2fvfcxk2kg)
   + TransUnion
     + TruAudience 身份解析和充实
   + 统一身份证 2.0
     + [统一 ID 2.0 身份解析](https://aws.amazon.com/marketplace/pp/prodview-66zqls7iqsm6o?sr=0-4&ref_=beagle&applicationId=AWSMPContessa#offers)

1. 根据您的报价类型，完成以下步骤之一。
   + **私人报价** — 如果您与提供商存在关系，请按照《*AWS Data Exchange 用户指南》*中的 “[私人产品和报价](https://docs.aws.amazon.com/data-exchange/latest/userguide/subscribe-to-private-offer.html)” 程序接受私人报价 AWS Data Exchange。
   + **自带订阅** — 如果您已经向提供商订阅了现有的数据，请按照*AWS Data Exchange 用户指南*中的[自带订阅 (BYOS) 优惠](https://docs.aws.amazon.com/data-exchange/latest/userguide/subscribe-to-byos-offer.html)程序接受自带订阅 (BYOS) 优惠。 AWS Data Exchange

1. 在上订阅提供者服务后 AWS Data Exchange，即可使用该提供商服务创建匹配的工作流程或 ID 映射工作流程。

有关如何访问包含以下内容的提供商产品的更多信息 APIs，请参阅*AWS Data Exchange 用户指南*中的[访问 API 产品](https://docs.aws.amazon.com/data-exchange/latest/userguide/subscribing-to-product.html#use-API-product)。

## 步骤 2：准备第三方数据表
<a name="prepare-third-party-data-tables"></a>

每种第三方服务都有一套不同的建议和指南，以帮助确保成功的匹配工作流程。

要准备第三方数据表，请参阅下表：


**数据提供商服务指南**  

| 提供者服务 | 需要唯一的身份证吗？ | 操作 | 
| --- | --- | --- | 
| LiveRamp | 是 |  确保进行以下配置： [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/entityresolution/latest/userguide/prepare-third-party-input-data.html)  | 
| TransUnion | 是 |  确保以下是输入视图中的`string`类型列： [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/entityresolution/latest/userguide/prepare-third-party-input-data.html)  | 
| 统一身份证 2.0 | 是 |  确保进行以下配置： [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/entityresolution/latest/userguide/prepare-third-party-input-data.html)  无论是谁提出请求，特定的电子邮件或电话号码在任何特定时间都会产生相同的原始 UID2价值。 生盐 UID2s 是通过添加盐桶中的盐来制成的，这些盐桶大约每年轮换一次，这样生的盐也会 UID2 随之旋转。不同的盐桶在一年中的不同时间轮换。 AWS Entity Resolution 数据匹配服务 目前无法跟踪旋转盐桶和未加工盐桶的情况 UID2s，因此建议你每天重新生成未加工 UID2s 的盐桶。有关更多信息，请参阅[增量更新 UID2s 应多久刷新一次](https://unifiedid.com/docs/getting-started/gs-faqs#how-often-should-uid2s-be-refreshed-for-incremental-updates)？ 在 UID 2.0 文档中。   | 

## 步骤 3：以支持的数据格式保存输入数据表
<a name="save-third-party-data-tables"></a>

如果您已经以支持的数据格式保存了第三方输入数据，则可以跳过此步骤。

要使用 AWS Entity Resolution 数据匹配服务，输入数据必须采用 AWS Entity Resolution 数据匹配服务 支持的格式。

AWS Entity Resolution 数据匹配服务 支持以下数据格式：
+ 逗号分隔值 (CSV)
**注意**  
LiveRamp 仅支持 CSV 文件。
+ Parquet

## 步骤 4：将您的输入数据表上传到 Amazon S3
<a name="upload-third-party-data-tables"></a>

如果您在 Amazon S3 中已有第三方数据表，则可以跳过此步骤。

**注意**  
您可以将输入数据存储在支持 S3 的 AWS 商业分区中任何区域的 Amazon S3 资源中。可以从其他地区访问这些数据，也可以在运行匹配工作流程 AWS 账户 时访问这些数据。

**将您的输入数据表上传到 Amazon S3**

1. 登录 AWS 管理控制台 并打开 Amazon S3 控制台，网址为[https://console.aws.amazon.com/s3/](https://console.aws.amazon.com/s3/)。

1. 选择 **Buckets**，然后选择一个存储桶来存储您的数据表。

1. 选择**上传**，然后按照提示进行操作。

1. 选择**对象**选项卡，查看存储数据的前缀。记下文件夹的名称。

   您可以选择要查看数据表的文件夹。

## 步骤 5：创建 AWS Glue 表
<a name="create-glue-table-third-party-data-tables"></a>

Amazon S3 中的输入数据必须编入目录 AWS Glue 并以 AWS Glue 表格形式表示。有关如何使用 Amazon S3 作为输入创建 AWS Glue 表的更多信息，请参阅[*AWS Glue 开发者指南*中的在 AWS Glue 控制台上使用爬虫](https://docs.aws.amazon.com/glue/latest/dg/console-crawlers.html)。

**注意**  
AWS Entity Resolution 数据匹配服务 不支持分区表。

在此步骤中，您将在中设置一个爬虫 AWS Glue 来抓取 S3 存储桶中的所有文件并创建 AWS Glue 表。

**注意**  
AWS Entity Resolution 数据匹配服务 目前不支持注册的 Amazon S3 地点 AWS Lake Formation。

**创建 AWS Glue 表**

1. 登录 AWS 管理控制台 并打开 AWS Glue 控制台，网址为[https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/)。

1. 从导航栏中，选择**爬网程序**。

1. 从列表中选择您的 S3 存储桶，然后选择**添加爬网程序**。

1. 在**添加爬网程序**页面上，输入**爬网程序名称**，然后选择**下一步**。

1. 继续浏览**添加爬网程序页面**，指定详细信息。

1. 在**选择 IAM 角色**页面上，选择**选择现有 IAM 角色**，然后选择**下一步**。

   如果需要，您也可以选择**创建 IAM 角色**或让管理员创建 IAM 角色。

1. 对于**为此爬网程序创建计划**，请保留默认**频率**（**按需运行**），然后选择**下一步**。

1. 对于 **“配置 Crawler 的输出**”，输入 AWS Glue 数据库，然后选择 “**下一步**”。

1. 检查所有详细信息，然后选择**完成**。

1. 在**爬网程序**页面上，选中 S3 存储桶旁边的复选框，然后选择**运行爬网程序**。

1. 爬网程序运行完毕后，在 AWS Glue 导航栏上选择**数据库**，然后选择您的数据库名称。

1. 在**数据库**页面上，选择 **\$1your database name\$1 中的表**。

   1. 查看 AWS Glue 数据库中的表。

   1. 要查看表的架构，请选择一个特定的表。

   1. 记下 AWS Glue 数据库名称和 AWS Glue 表名。

现在，您可以创建架构映射了。有关更多信息，请参阅 [创建架构映射](create-schema-mapping.md)。