使用相符的工作流程比對輸入資料 - AWS Entity Resolution

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用相符的工作流程比對輸入資料

相符工作流程是一種資料處理任務,可合併和比較來自不同輸入來源的資料,並根據不同的相符技術判斷哪些記錄相符。 會從您指定的位置AWS Entity Resolution讀取您的資料,在記錄之間尋找相符項目,並將相符 ID 指派給每組相符的資料。

下圖摘要說明如何建立相符的工作流程。

A summary of the four steps to create a matching workflow in AWS Entity Resolution

比對工作流程類型

AWS Entity Resolution支援三種類型的相符工作流程:

規則型比對

使用可設定的規則,根據指定欄位的確切或模糊比對來識別相符記錄。您可以定義相符條件,例如類似拼寫的相符名稱,或是格式不同的地址。

機器學習型比對

使用機器學習模型來識別類似的記錄,即使資料有變化、錯誤或缺少欄位。這種方法可以偵測比規則型比對更複雜的比對。

供應商服務型比對

使用第三方資料提供者來擴充和驗證您的資料,然後再進行比對。這種類型的比對與 Amazon Connect Customer Profiles 輸出不相容。

資料輸出選項

AWS Entity Resolution可以將資料輸出檔案寫入:

  • 您指定的 Amazon S3 位置

  • Amazon Connect Customer Profiles (用於客戶資料重複資料刪除)

重要

匯出至 Amazon Connect Customer Profiles 與供應商型比對不相容。若要匯出至 Amazon Connect Customer Profiles,您必須使用規則型比對或機器學習型比對。

您可以視需要使用AWS Entity Resolution來雜湊輸出資料 – 協助您維持對資料的控制。

下表顯示三種類型的相符工作流程及其支援的輸出目的地。

比對類型 S3 輸出 客戶設定檔輸出
規則型
以機器學習為基礎的
提供者服務型

比對工作流程結果

建立並執行相符的工作流程後,您可以在指定的 S3 位置或 Amazon Connect Customer Profiles 中檢視結果。比對工作流程會在資料編製索引後產生 IDs。

相符的工作流程可以有多個執行,結果 (成功或錯誤) 會寫入名稱jobId為 的資料夾。

對於 S3 輸出目的地的每個執行:

  • 資料輸出同時包含成功比對的檔案,以及錯誤的檔案

  • 成功結果會寫入包含多個檔案的success資料夾

  • 錯誤會寫入具有多個欄位的error資料夾

對於 Amazon Connect Customer Profiles 輸出目的地的每個執行:

  • 重複資料刪除的客戶記錄會直接傳送到您的 Amazon Connect 執行個體

  • 您可以在AWS Entity Resolution主控台中檢視最近的任務歷史記錄

  • Amazon Connect 中的現有設定檔不包含在重複資料刪除程序中

建立並執行相符的工作流程之後,您可以使用規則型比對機器學習 (ML) 比對的輸出,做為提供者服務型比對的輸入,或反之亦然,以滿足您的業務需求。

例如,若要節省提供者訂閱成本,您可以先執行規則型比對,在資料上尋找相符項目。然後,您可以將一部分不相符的記錄傳送到提供者服務型比對。請注意,如果您打算匯出至客戶設定檔,您應該僅使用規則型或機器學習型比對。

如需故障診斷錯誤的詳細資訊,請參閱 對相符的工作流程進行故障診斷