一致するワークフローを使用して入力データを照合する - AWS Entity Resolution

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

一致するワークフローを使用して入力データを照合する

マッチングワークフローは、さまざまな入力ソースのデータを組み合わせて比較し、さまざまなマッチング手法に基づいて一致するレコードを決定するデータ処理ジョブです。 は、指定された場所からデータをAWS Entity Resolution読み取り、レコード間の一致を検索し、一致する各データセットに一致 ID を割り当てます。

次の図は、一致するワークフローを作成する方法をまとめたものです。

A summary of the four steps to create a matching workflow in AWS Entity Resolution

一致するワークフロータイプ

AWS Entity Resolutionは、次の 3 種類のマッチングワークフローをサポートしています。

ルールベースのマッチング

設定可能なルールを使用して、指定されたフィールドの完全一致またはあいまい一致に基づいて一致するレコードを識別します。同様にスペルされた名前の一致や、形式が異なるアドレスなど、一致する条件を定義します。

機械学習ベースのマッチング

機械学習モデルを使用して、データにバリエーション、エラー、欠落しているフィールドがある場合でも、同様のレコードを識別します。このアプローチでは、ルールベースのマッチングよりも複雑なマッチングを検出できます。

プロバイダーのサービスベースのマッチング

サードパーティーのデータプロバイダーを使用して、マッチング前にデータを強化および検証します。このタイプのマッチングは、Amazon Connect Customer Profiles 出力と互換性がありません。

データ出力オプション

AWS Entity Resolutionは、データ出力ファイルを次の宛先に書き込むことができます。

  • 指定した Amazon S3 の場所

  • Amazon Connect Customer Profiles (顧客データの重複排除用)

重要

Amazon Connect Customer Profiles へのエクスポートは、プロバイダーベースのマッチングと互換性がありません。Amazon Connect Customer Profiles にエクスポートするには、ルールベースのマッチングまたは機械学習ベースのマッチングを使用する必要があります。

必要に応じてAWS Entity Resolutionを使用して出力データをハッシュできるため、データの制御を維持できます。

次の表は、3 種類の一致するワークフローと、それらのサポートされている出力先を示しています。

マッチングタイプ S3 出力 Customer Profiles 出力
ルールベース はい はい
機械学習ベース はい はい
プロバイダーのサービスベース はい なし

ワークフロー結果の一致

一致するワークフローを作成して実行すると、指定した S3 の場所または Amazon Connect Customer Profiles で結果を表示できます。一致するワークフローはIDs を生成します。

一致するワークフローは複数の実行を持つことができ、結果 (成功またはエラー) は名前jobIdとして を持つフォルダに書き込まれます。

S3 出力先の実行ごとに:

  • データ出力には、一致するファイルとエラーのファイルの両方が含まれます。

  • 成功した結果は、複数のファイルを含むsuccessフォルダに書き込まれます。

  • エラーは複数のフィールドを持つ errorフォルダに書き込まれます

Amazon Connect Customer Profiles 出力先の実行ごとに:

  • 重複した顧客レコードが Amazon Connect インスタンスに直接送信される

  • AWS Entity Resolutionコンソールで最近のジョブ履歴を表示できます。

  • Amazon Connect の既存のプロファイルは重複排除プロセスに含まれません

一致するワークフローを作成して実行したら、ルールベースのマッチングまたは機械学習 (ML) マッチングの出力を、プロバイダーのサービスベースのマッチングへの入力として、またはビジネスニーズを満たすための逆の方法として使用できます。

例えば、プロバイダーのサブスクリプションコストを節約するために、まずルールベースのマッチングを実行してデータに対する一致を見つけることができます。次に、一致しないレコードのサブセットをプロバイダーのサービスベースのマッチングに送信できます。Customer Profiles にエクスポートする場合は、ルールベースまたは機械学習ベースのマッチングのみを使用する必要があります。

エラーのトラブルシューティングの詳細については、「」を参照してくださいマッチングワークフローのトラブルシューティング