本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用相符的工作流程比對輸入資料
相符工作流程是一種資料處理任務,可合併和比較來自不同輸入來源的資料,並根據不同的相符技術判斷哪些記錄相符。 會從您指定的位置AWS Entity Resolution讀取您的資料,在記錄之間尋找相符項目,並將相符 ID 指派給每組相符的資料。
下圖摘要說明如何建立相符的工作流程。
主題
比對工作流程類型
AWS Entity Resolution支援三種類型的相符工作流程:
- 規則型比對
-
使用可設定的規則,根據指定欄位的確切或模糊比對來識別相符記錄。您可以定義相符條件,例如類似拼寫的相符名稱,或是格式不同的地址。
- 機器學習型比對
-
使用機器學習模型來識別類似的記錄,即使資料有變化、錯誤或缺少欄位。這種方法可以偵測比規則型比對更複雜的比對。
- 供應商服務型比對
-
使用第三方資料提供者來擴充和驗證您的資料,然後再進行比對。這種類型的比對與 Amazon Connect Customer Profiles 輸出不相容。
資料輸出選項
AWS Entity Resolution可以將資料輸出檔案寫入:
-
您指定的 Amazon S3 位置
-
Amazon Connect Customer Profiles (用於客戶資料重複資料刪除)
重要
匯出至 Amazon Connect Customer Profiles 與供應商型比對不相容。若要匯出至 Amazon Connect Customer Profiles,您必須使用規則型比對或機器學習型比對。
您可以視需要使用AWS Entity Resolution來雜湊輸出資料 – 協助您維持對資料的控制。
下表顯示三種類型的相符工作流程及其支援的輸出目的地。
比對工作流程結果
建立並執行相符的工作流程後,您可以在指定的 S3 位置或 Amazon Connect Customer Profiles 中檢視結果。比對工作流程會在資料編製索引後產生 IDs。
相符的工作流程可以有多個執行,結果 (成功或錯誤) 會寫入名稱jobId為 的資料夾。
對於 S3 輸出目的地的每個執行:
-
資料輸出同時包含成功比對的檔案,以及錯誤的檔案
-
成功結果會寫入包含多個檔案的
success資料夾 -
錯誤會寫入具有多個欄位的
error資料夾
對於 Amazon Connect Customer Profiles 輸出目的地的每個執行:
-
重複資料刪除的客戶記錄會直接傳送到您的 Amazon Connect 執行個體
-
您可以在AWS Entity Resolution主控台中檢視最近的任務歷史記錄
-
Amazon Connect 中的現有設定檔不包含在重複資料刪除程序中
建立並執行相符的工作流程之後,您可以使用規則型比對或機器學習 (ML) 比對的輸出,做為提供者服務型比對的輸入,或反之亦然,以滿足您的業務需求。
例如,若要節省提供者訂閱成本,您可以先執行規則型比對,在資料上尋找相符項目。然後,您可以將一部分不相符的記錄傳送到提供者服務型比對。請注意,如果您打算匯出至客戶設定檔,您應該僅使用規則型或機器學習型比對。
如需故障診斷錯誤的詳細資訊,請參閱 對相符的工作流程進行故障診斷。