ステップ 1: ファーストパーティデータテーブルを準備するステップ 2: 入力データテーブルをサポートされているデータ形式で保存するステップ 3: 入力データテーブルを Amazon S3 にアップロードするステップ 4: AWS Glue テーブルを作成するステップ 4: パーティション分割された AWS Glue テーブルを作成する

ファーストパーティ入力データの準備

次の手順では、ルールベースのマッチングワークフロー、機械学習ベースのマッチングワークフロー、または ID マッピングワークフローで使用するファーストパーティデータを準備します。

ステップ 1: ファーストパーティデータテーブルを準備する

一致するワークフロータイプごとに、成功を確実にするための推奨事項とガイドラインのセットが異なります。

ファーストパーティデータテーブルを準備するには、次の表を参照してください。

ファーストパーティデータテーブルのガイドライン
ワークフロータイプ	必須
高度なルールタイプを使用したルールベースのマッチングワークフロー	一意の ID が必要です。一意の ID は 38 文字以下です。 (オプション) ワークフローの処理が完了した AWS Entity Resolution 後に削除するレコードを指定する DELETE 列。列に値がない場合、デフォルト値は `false` です。DELETE 列が `true` に設定されているレコードは削除されます。DELETE 列が `false` または empty に設定されているレコードは、によって処理されます AWS Entity Resolution。スキーマには、タイプがで`String`、 `matchKey`とがない DELETE 列が必要です`groupName`。注記手動処理ケイデンスのアドバンストルールタイプは取り込まれたデータを保存しないため、検索一致 ID (`GetMatchID`) はサポートされていません。次の例では、 `S1`が取り込まれ、`S2`削除されます。例 `sourceID, name, lastName, DELETE S1, name, lastname, false S2, name2, lastname2, true`
Simple ルールタイプのルールベースのマッチングワークフロー	一意の ID が必要です。一意の ID は 38 文字以下です。
機械学習ベースのマッチングワークフロー	一意の ID が必要です。データセットには、次のいずれかのタイプが含まれます。 `Full Name` `Full Address` `Full phone` `Email address` `Date` — 一致キー名が生年月日の場合どの列名も、`MatchId`「」、`MatchRule`「」、「」、`RecordIdSourceId`「」、「」の予約名を使用し`TargetId`ません。 (オプション) ワークフローの処理が完了した AWS Entity Resolution 後に削除するレコードを指定する DELETE 列。列に値がない場合、デフォルト値は `false` です。DELETE 列が `true` に設定されているレコードは削除されます。DELETE 列が `false` または empty に設定されているレコードは、によって処理されます AWS Entity Resolution。スキーマには、タイプがで`String`、 `matchKey`とがない DELETE 列が必要です`groupName`。次の例では、 `S1`が取り込まれ、`S2`削除されます。例 `sourceID, name, lastName, DELETE S1, name, lastname, false S2, name2, lastname2, true`
ID マッピングワークフロー	一意の ID が必要です。一意の ID は 257 文字以下です。 (オプション) ワークフローの処理が完了した AWS Entity Resolution 後に削除するレコードを指定する DELETE 列。列に値がない場合、デフォルト値は `false` です。DELETE 列が `true` に設定されているレコードは削除されます。DELETE 列が `false` または empty に設定されているレコードは、によって処理されます AWS Entity Resolution。スキーマには、タイプがで`String`、 `matchKey`とがない DELETE 列が必要です`groupName`。次の例では、 `S1`が取り込まれ、`S2`削除されます。例 `sourceID, name, lastName, DELETE S1, name, lastname, false S2, name2, lastname2, true`

ステップ 2: 入力データテーブルをサポートされているデータ形式で保存する

ファーストパーティ入力データをサポートされているデータ形式で既に保存している場合は、このステップをスキップできます。

を使用するには AWS Entity Resolution、入力データがが AWS Entity Resolution サポートする形式である必要があります。

AWS Entity Resolution は、次のデータ形式をサポートしています。

カンマ区切り値 (CSV)
Parquet

ステップ 3: 入力データテーブルを Amazon S3 にアップロードする

Amazon S3 にファーストパーティデータテーブルがすでにある場合は、このステップをスキップできます。

注記

入力データは、S3resourcesに保存できます。 AWS S3 このデータは、別のリージョンから、または一致するワークフローを実行する AWS アカウントときにアクセスできます。

入力データテーブルを Amazon S3 にアップロードするには

にサインイン AWS マネジメントコンソールし、https://console.aws.amazon.com/s3/ で Amazon S3 コンソールを開きます。
バケットを選択し、データテーブルを保存するバケットを選択します。
[アップロード] を選択し、プロンプトに従います。
[オブジェクト] タブを選択し、データが保存されているプレフィックスを表示します。フォルダの名前を書き留めます。

フォルダを選択して、データテーブルを表示できます。

ステップ 4: AWS Glue テーブルを作成する

注記

パーティション AWS Glue テーブルが必要な場合は、「」に進みますステップ 4: パーティション分割された AWS Glue テーブルを作成する。

Amazon S3 の入力データは、でカタログ化 AWS Glue され、 AWS Glue テーブルとして表される必要があります。Amazon S3 を入力として AWS Glue テーブルを作成する方法の詳細については、「 AWS Glue デベロッパーガイド」の「コンソールでのクローラの使用AWS Glue 」を参照してください。

このステップでは、S3 バケット内のすべてのファイルをクロールし、 AWS Glue AWS Glue テーブルを作成するクローラをにセットアップします。

注記

AWS Entity Resolution は現在、に登録されている Amazon S3 ロケーションをサポートしていません AWS Lake Formation。

AWS Glue テーブルを作成するには

にサインイン AWS マネジメントコンソールし、https://console.aws.amazon.com/glue/ で AWS Glue コンソールを開きます。
ナビゲーションバーから、[クローラ] を選択します。
リストから S3 バケットを選択し、クローラの作成を選択します。
クローラプロパティの設定ページで、crawlerName オプションの説明を入力し、次へを選択します。
引き続き [クローラを追加] ページで、詳細を指定します。
[IAM ロールの選択] ページで [既存の IAM ロールを選択] を選択し [次へ] 選択します。

[IAM ロールを作成する] を選択することも、必要に応じて管理者に IAM ロールを作成してもらうこともできます。
[このクローラのスケジュールを設定する] で、[頻度] をデフォルト ([オンデマンドで実行]) のままにして、[次へ] を選択します。
クローラの出力を設定する で、 AWS Glue データベースを入力し、次へを選択します。
すべての詳細を確認し、完了を選択します。
[クローラ] ページで、S3 バケットの横にあるチェックボックスをオンにし、[クローラの実行] を選択します。
クローラの実行が完了したら、 AWS Glue ナビゲーションバーでデータベースを選択し、データベース名を選択します。
[データベース] ページで、[{データベース名} のテーブル] を選択します。
1. AWS Glue データベース内のテーブルを表示します。
2. テーブルのスキーマを表示するには、特定のテーブルを選択します。
3. AWS Glue データベース名と AWS Glue テーブル名を書き留めます。

これで、スキーママッピングを作成する準備ができました。詳細については、「スキーママッピングの作成」を参照してください。

ステップ 4: パーティション分割された AWS Glue テーブルを作成する

注記

の AWS Glue パーティショニング機能は AWS Entity Resolution 、ID マッピングワークフローでのみサポートされています。この AWS Glue パーティショニング機能を使用すると、で処理する特定のパーティションを選択できます AWS Entity Resolution。

パーティション AWS Glue テーブルが必要ない場合は、このステップをスキップできます。

パーティション分割された AWS Glue テーブルは、データ構造に新しいフォルダ (1 か月未満の新しい日フォルダなど) を追加すると、 AWS Glue テーブル内の新しいパーティションを自動的に反映します。

でパーティション分割された AWS Glue テーブルを作成するときに AWS Entity Resolution、ID マッピングワークフローで処理するパーティションを指定できます。次に、ID マッピングワークフローを実行するたびに、 AWS Glue テーブル全体のすべてのデータを処理するのではなく、それらのパーティションのデータのみが処理されます。この機能を使用すると、でより正確で効率的で費用対効果の高いデータ処理が可能になり AWS Entity Resolution、エンティティ解決タスクをより細かく制御し、柔軟に管理できます。

ID マッピングワークフローでソースアカウントのパーティション AWS Glue テーブルを作成できます。

まず、で Amazon S3 の入力データをカタログ化し AWS Glue 、テーブルとして AWS Glue 表現する必要があります。Amazon S3 を入力として AWS Glue テーブルを作成する方法の詳細については、「 AWS Glue デベロッパーガイド」の「コンソールでのクローラの使用AWS Glue 」を参照してください。

このステップでは、S3 バケット内のすべてのファイルをクロール AWS Glue し、パーティションテーブルを作成するクローラをにセットアップします AWS Glue 。

注記

AWS Entity Resolution は現在、に登録されている Amazon S3 ロケーションをサポートしていません AWS Lake Formation。

パーティション分割された AWS Glue テーブルを作成するには

にサインイン AWS マネジメントコンソールし、https://console.aws.amazon.com/glue/ で AWS Glue コンソールを開きます。
ナビゲーションバーから、[クローラ] を選択します。
リストから S3 バケットを選択し、クローラの作成を選択します。
クローラのプロパティの設定ページで、クローラ名、オプションの説明を入力し、次へを選択します。
引き続き [クローラを追加] ページで、詳細を指定します。
[IAM ロールの選択] ページで [既存の IAM ロールを選択] を選択し [次へ] 選択します。

[IAM ロールを作成する] を選択することも、必要に応じて管理者に IAM ロールを作成してもらうこともできます。
[このクローラのスケジュールを設定する] で、[頻度] をデフォルト ([オンデマンドで実行]) のままにして、[次へ] を選択します。
クローラの出力を設定する で、 AWS Glue データベースを入力し、次へを選択します。
すべての詳細を確認し、完了を選択します。
[クローラ] ページで、S3 バケットの横にあるチェックボックスをオンにし、[クローラの実行] を選択します。
クローラの実行が完了したら、 AWS Glue ナビゲーションバーでデータベースを選択し、データベース名を選択します。
データベースページのテーブルで、パーティション分割するテーブルを選択します。
テーブルの概要で、アクションドロップダウンを選択し、テーブルの編集を選択します。
1. テーブルプロパティで、追加を選択します。
2. 新しいキーには、と入力しますaerPushDownPredicateString。
3. 新しい値には、「」と入力します'<PartitionKey>=<PartitionValue'。
4. AWS Glue データベース名と AWS Glue テーブル名を書き留めます。

これで次の作業に進むことができます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

入力データテーブルを準備する

サードパーティーの入力データの準備