ルールベースのマッチングワークフローの作成 - AWS Entity Resolution

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

ルールベースのマッチングワークフローの作成

ルールベースのマッチングは、入力したデータに基づいて によって提案され AWS Entity Resolution、ユーザーが完全に設定可能なウォーターフォールマッチングルールの階層セットです。ルールベースのマッチングワークフローを使用すると、クリアテキストデータまたはハッシュデータを比較して、カスタマイズした基準に基づいて完全一致を見つけることができます。

がデータ内の 2 つ以上のレコード間の一致 AWS Entity Resolution を検出すると、以下が割り当てられます。

ルールベースのマッチングワークフローを作成するには
  1. にサインイン AWS Management Console し、https://console.aws.amazon.com/entityresolution/ で AWS Entity Resolution コンソールを開きます。

  2. 左側のナビゲーションペインのワークフローで、一致を選択します。

  3. 一致するワークフローページの右上隅で、一致するワークフローの作成を選択します。

  4. ステップ 1: 一致するワークフローの詳細を指定するには、以下を実行します。

    1. 一致するワークフロー名とオプションの 説明を入力します。

    2. データ入力で、ドロップダウンからAWS Glue データベースを選択し、AWS Glue テーブルを選択し、対応するスキーママッピングを選択します。

      最大 19 個のデータ入力を追加できます。

    3. データの正規化オプションはデフォルトで選択され、一致する前にデータ入力が正規化されます。データを正規化しない場合は、データの正規化オプションの選択を解除します。

      注記

      正規化は、スキーママッピングの作成で以下のシナリオでのみサポートされています。

      • 名前サブタイプがグループ化されている場合: ミドルネーム、

      • 住所サブタイプがグループ化されている場合: 住所 1住所 2住所 3区町村、郵便番号

      • 電話番号サブタイプがグループ化されている場合: 電話番号電話番号の国コード

    4. サービスアクセス許可を指定するには、 オプションを選択し、推奨アクションを実行します。

      オプション 推奨されるアクション
      新しいサービスロールを作成して使用
      • AWS Entity Resolution は、このテーブルに必要なポリシーを持つサービスロールを作成します。

      • デフォルトの [サービスロール名]entityresolution-matching-workflow-<timestamp> です。

      • ロールを作成してポリシーをアタッチするアクセス許可が必要です。

      • 入力データが暗号化されている場合は、このデータは KMS キーオプションで暗号化されます。次に、データ入力の復号に使用される AWS KMS キーを入力します。

      既存のサービスロールを使用
      1. ドロップダウンリストから [既存のサービスロール名] を選択します。

        ロールを一覧表示するアクセス許可がある場合は、ロールのリストが表示されます。

        ロールを一覧表示するアクセス許可がない場合は、使用するロールの Amazon リソースネーム (ARN) を入力できます。

        既存のサービスロールがない場合、[既存のサービスロールを使用] オプションは使用できません。

      2. [IAM で表示] 外部リンクを選択してサービスロールを表示します。

        デフォルトでは、 AWS Entity Resolution は既存のロールポリシーを更新して必要なアクセス許可を追加しようとしません。

    5. (オプション) リソースのタグを有効にするには、新しいタグを追加を選択し、キー値のペアを入力します。

    6. [次へ] を選択します。

  5. ステップ 2: 一致する手法を選択するには:

    1. マッチングメソッドで、ルールベースのマッチングを選択します。

      ルールベースおよび機械学習オプションで一致する手法画面を選択します。
    2. Processing cadence では、次のいずれかのオプションを選択します。

      • 手動を選択して、一括更新のワークフローをオンデマンドで実行する

      • 自動 を選択して、新しいデータが S3 バケットに保存されたらすぐにワークフローを実行します。

      注記

      自動 を選択した場合は、S3 バケットに対して Amazon EventBridge 通知が有効になっていることを確認します。S3 コンソールを使用して Amazon EventBridge を有効にする手順については、「Amazon S3 ユーザーガイド」の「Amazon EventBridge の有効化」を参照してください。 Amazon S3

    3. (オプション) ID マッピングワークフローでソースまたはターゲットとして一致するワークフローを使用する場合は、ID マッピングに対してのみインデックスを有効にするを選択します。 AWS Entity Resolution はデータのインデックスのみを作成し、IDsを生成しません。

      デフォルトでは、一致するワークフローは、データのインデックス作成後に IDs を生成します。

    4. 一致ルールには、ルール名を入力し、そのルールの一致キーを選択します。

      最大 15 個のルールを作成し、ルール全体に最大 15 個の異なる一致キーを適用して、一致基準を定義できます。

      一致するルールは、ルール名を入力し、一致キーを選択するためのフィールドと連動します。
    5. 別のルールを追加 を選択して、必要に応じて追加のルールを作成します。

    6. 比較タイプでは、次のいずれかのオプションを選択します。

      • 複数の入力フィールドを選択して、複数の入力フィールドに保存されているデータ間の一致の任意の組み合わせを見つけます。

      • 単一入力フィールドを選択して、比較を単一の入力フィールドに制限します。

      比較タイプオプション: 複数のフィールドに保存されているデータ間の一致を検索する複数の入力フィールド、または 1 つのフィールド内の比較を制限する単一入力フィールド。
    7. [次へ] を選択します。

  6. ステップ 3: データ出力と形式を指定するには:

    1. データ出力の送信先と形式については、データ出力の Amazon S3 の場所、データ形式正規化データまたは元のデータのどちらにするかを選択します。

    2. 暗号化 で、暗号化設定をカスタマイズする場合は、AWS KMS キー ARN を入力します。

    3. システムによって生成された出力を表示します。

    4. データ出力では、含めるフィールド、非表示にするフィールド、またはマスクするフィールドを決定し、次のいずれかのオプションを選択します。

      • フィールドを含めるには、出力状態をインクルードのままにします。

      • Output フィールドを選択し、Hide を選択してフィールドを非表示にします (出力から除外)。

      • 出力フィールドを選択し、ハッシュ出力を選択してフィールドをマスクします。

      • リセット を選択して、以前の設定をリセットします。

    5. [次へ] を選択します。

  7. ステップ 4: 確認して作成する

    1. 前のステップで行った選択内容を確認し、必要に応じて編集します。

    2. Create and run を選択します。

      一致するワークフローが作成され、ジョブが開始されたことを示すメッセージが表示されます。

  8. 一致するワークフローの詳細ページで、メトリクスタブで、「最後のジョブメトリクス」の下に以下を表示します。

    • ジョブ ID

    • 一致するワークフロージョブのステータス: QueuedIn progressCompletedFailed

    • ワークフロージョブの完了時刻

    • 処理されたレコードの数。

    • 処理されていないレコードの数。

    • 生成された一意の一致 IDs

    • 入力レコードの数。

    ジョブ履歴で以前に実行された一致するワークフロージョブのジョブメトリクスを表示することもできます。

  9. 一致するワークフロージョブが完了したら (ステータスが完了)、データ出力タブに移動し、Amazon S3 の場所を選択して結果を表示できます。

  10. 手動処理タイプのみ) 手動処理タイプを使用してルールベースのマッチングワークフローを作成した場合は、一致するワークフローの詳細ページでワークフローの実行を選択して、一致するワークフローをいつでも実行できます。