

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 自訂實體辨識
<a name="custom-entity-recognition"></a>

自訂實體辨識透過協助您識別不在預設[通用實體類型中的特定新實體類型](https://docs.aws.amazon.com/comprehend/latest/dg/how-entities.html)，來擴展 Amazon Comprehend 的功能。這表示您可以分析文件並擷取實體，例如產品代碼或符合您特定需求的業務特定實體。

自行建置準確的自訂實體識別器可能是一個複雜的程序，需要準備大量手動註釋的訓練文件，以及為模型訓練選擇正確的演算法和參數。Amazon Comprehend 提供自動註釋和模型開發來建立自訂實體辨識模型，有助於降低複雜性。

建立自訂實體辨識模型比使用字串比對或規則表達式從文件中擷取實體更有效。例如，若要在文件中擷取 ENGINEER 名稱，很難列舉所有可能的名稱。此外，在沒有內容的情況下，區分 ENGINEER 名稱和 ANALYST 名稱並不容易。自訂實體辨識模型可以了解這些名稱可能顯示的內容。此外，字串比對不會偵測具有錯別字或遵循新命名慣例的實體，但可以使用自訂模型。

您有兩種建立自訂模型的選項：

1. 註釋 – 提供資料集，其中包含用於模型訓練的註釋實體。

1. 實體清單 （僅限純文字） – 提供實體清單及其類型標籤 （例如 `PRODUCT_CODES`和一組未標註的文件，其中包含這些實體以進行模型訓練。

當您使用註釋的 PDF 檔案建立自訂實體辨識器時，您可以使用該辨識器搭配各種輸入檔案格式：純文字、影像檔案 (JPG、PNG、TIFF)、PDF 檔案和 Word 文件，而不需要預先處理或扁平化文件。Amazon Comprehend 不支援影像檔案或 Word 文件的註釋。

**注意**  
使用註釋 PDF 檔案的自訂實體辨識器僅支援英文文件。

您可以一次在最多 25 個自訂實體上訓練模型。如需詳細資訊，請參閱 [準則和配額頁面](https://docs.aws.amazon.com/comprehend/latest/dg/guidelines-and-limits.html)。

訓練模型後，您可以使用模型進行即時實體偵測和實體偵測任務。

**Topics**
+ [準備實體辨識器訓練資料](prep-training-data-cer.md)
+ [訓練自訂實體辨識器模型](training-recognizers.md)
+ [執行即時自訂辨識器分析](running-cer-sync.md)
+ [執行自訂實體辨識的分析任務](detecting-cer.md)