本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
準備實體辨識器訓練資料
若要訓練成功的自訂實體辨識模型,請務必提供模型訓練師高品質的資料做為輸入。如果沒有良好的資料,模型將無法了解如何正確識別實體。
您可以選擇兩種方式之一來提供資料給 Amazon Comprehend,以訓練自訂實體辨識模型:
-
實體清單 – 列出特定實體,讓 Amazon Comprehend 可以訓練 以識別您的自訂實體。注意:實體清單只能用於純文字文件。
-
註釋 – 在多個文件中提供實體的位置,以便 Amazon Comprehend 可以同時針對實體及其內容進行訓練。若要建立模型來分析影像檔案、PDFs或 Word 文件,您必須使用 PDF 註釋來訓練您的辨識器。
在這兩種情況下,Amazon Comprehend 都會了解文件的類型和實體發生的環境,並建置可進行一般化的辨識器,以便在您分析文件時偵測新實體。
當您建立自訂模型 (或訓練新版本) 時,您可以提供測試資料集。如果您不提供測試資料,Amazon Comprehend 會保留 10% 的輸入文件來測試模型。Amazon Comprehend 會使用剩餘的文件來訓練模型。
如果您為註釋訓練集提供測試資料集,則測試資料必須為建立請求中指定的每個實體類型至少包含一個註釋。
何時使用註釋與實體清單
建立註釋比建立實體清單需要更多工作,但產生的模型可以更準確。使用實體清單更快速且較不耗費大量工作,但結果較不精細且不準確。這是因為註釋提供更多內容供 Amazon Comprehend 在訓練模型時使用。如果沒有該內容,Amazon Comprehend 在嘗試識別實體時會有較多的誤報。
在某些情況下,避免使用註釋的較高費用和工作負載會更有商業意義。例如,John Johnson 的名稱對您的搜尋很重要,但它是否與確切的個人無關。或者,使用實體清單時的指標足以提供您所需的辨識器結果。在這類執行個體中,改用實體清單會是更有效的選擇。
建議在下列情況下使用註釋模式:
-
如果您打算針對影像檔案、PDFs 或 Word 文件執行推論。在此案例中,您會使用註釋的 PDF 檔案訓練模型,並使用模型來執行影像檔案、PDFs和 Word 文件的推論任務。
-
實體的意義可能含糊不清且內容相關。例如,Amazon 一詞可以參考巴西的河流,或線上零售商 Amazon.com。當您建置自訂實體識別器來識別 Amazon 等商業實體時,您應該使用註釋而非實體清單,因為此方法更能夠使用內容來尋找實體。
-
當您可以輕鬆設定程序以取得註釋時,這可能需要一些努力。
在下列情況下,建議使用實體清單:
-
當您已有實體清單,或編寫完整的實體清單相當容易時。如果您使用實體清單,清單應該是完整的,或至少涵蓋大部分可能出現在您提供訓練的文件中的有效實體。
-
對於第一次使用的使用者,通常建議使用實體清單,因為這需要比建構註釋更小的工作量。不過,請務必注意,訓練過的模型可能不如您使用註釋那樣準確。