

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 訓練自訂辨識器 （主控台）
<a name="realtime-analysis-cer"></a>

您可以使用 Amazon Comprehend 主控台建立自訂實體辨識器。本節說明如何建立和訓練自訂實體辨識器。

**Topics**

## 使用主控台建立自訂實體辨識器 - CSV 格式
<a name="console-CER"></a>

若要建立自訂實體辨識器，請先提供資料集來訓練模型。在此資料集中，包含下列其中一項：一組標註的文件或一組實體及其類型標籤，以及一組包含這些實體的文件。如需詳細資訊，請參閱[自訂實體辨識](custom-entity-recognition.md)

**使用 CSV 檔案訓練自訂實體辨識器**

1. 登入 AWS 管理主控台 並開啟位於 https：//[https://console.aws.amazon.com/comprehend/](https://console.aws.amazon.com/comprehend/) 的 Amazon Comprehend 主控台

1. 從左側功能表中，選擇**自訂**，然後選擇**自訂實體辨識**。

1. 選擇**建立新模型**。

1. 為辨識器命名。名稱在區域和帳戶中必須是唯一的。

1. 選取語言。

1. 在**自訂實體類型**下，輸入您希望辨識器在資料集中找到的自訂標籤。

   實體類型必須為大寫，如果由多個單字組成，請以底線分隔單字。

1. 選擇**新增類型**。

1. 如果您想要新增其他實體類型，請輸入它，然後選擇**新增類型**。如果您想要移除已新增的實體類型之一，請選擇**移除類型**，然後選擇要從清單中移除的實體類型。最多可列出 25 種實體類型。

1. 若要加密訓練任務，請選擇**辨識器加密**，然後選擇要使用與目前帳戶相關聯的 KMS 金鑰，還是使用另一個帳戶。
   + 如果您使用的是與目前帳戶相關聯的金鑰，對於 **KMS 金鑰 ID**，請選擇金鑰 ID。
   + 如果您使用的是與不同帳戶相關聯的金鑰，對於 **KMS 金鑰 ARN**，請輸入金鑰 ID 的 ARN。
**注意**  
如需建立和使用 KMS 金鑰和相關聯加密的詳細資訊，請參閱 [AWS Key Management Service](https://docs.aws.amazon.com/kms/latest/developerguide/overview.html)。

1. 在**資料規格**下，選擇訓練文件的格式：
   + **CSV 檔案** — 補充訓練文件的 CSV 檔案。CSV 檔案包含訓練模型將偵測之自訂實體的相關資訊。所需的檔案格式取決於您是提供註釋還是實體清單。
   + **增強資訊清單** — Amazon SageMaker Ground Truth 產生的標記資料集。此檔案為 JSON 行格式。每一行都是完整的 JSON 物件，其中包含訓練文件及其標籤。每個標籤都會在訓練文件中標註具名實體。您最多可以提供 5 個擴增的資訊清單檔案。

   如需可用格式的詳細資訊，以及範例的詳細資訊，請參閱 [訓練自訂實體辨識器模型](training-recognizers.md)。

1. 在**訓練類型**下，選擇要使用的訓練類型：
   + **使用註釋和訓練文件**
   + **使用實體清單和訓練文件**

    如果選擇註釋，請在 Amazon S3 中輸入註釋檔案的 URL。您也可以導覽至 Amazon S3 中註釋檔案所在的儲存貯體或資料夾，然後選擇**瀏覽 S3**。

    如果選擇實體清單，請在 Amazon S3 中輸入實體清單的 URL。您也可以導覽至實體清單所在的 Amazon S3 中的儲存貯體或資料夾，然後選擇**瀏覽 S3**。

1. 在 Amazon S3 中輸入包含訓練文件的輸入資料集 URL。您也可以導覽至訓練文件所在的 Amazon S3 中的儲存貯體或資料夾，然後選擇**選取資料夾**。

1. 在**測試資料集**下，選取您要如何評估訓練模型的效能 - 您可以同時針對註釋和實體清單訓練類型執行此操作。
   + **Autosplit**：Autosplit 會自動選取 10% 的訓練資料，以用作測試資料 
   + （選用） **客戶提供**：選取客戶提供的 時，您可以指定要使用的測試資料。

1. 如果您選取客戶提供的測試資料集，請在 Amazon S3 中輸入註釋檔案的 URL。您也可以導覽至 Amazon S3 中註釋檔案所在的儲存貯體或資料夾，然後選擇**選取資料夾**。

1. 在**選擇 IAM 角色**區段中，選取現有的 IAM 角色或建立新的角色。
   + **選擇現有的 IAM 角色** – 如果您已經擁有可存取輸入和輸出 Amazon S3 儲存貯體的 IAM 角色，請選取此選項。
   + **建立新的 IAM 角色** – 當您想要建立具有適當許可的新 IAM 角色，讓 Amazon Comprehend 存取輸入和輸出儲存貯體時，請選取此選項。
**注意**  
如果輸入文件已加密，則使用的 IAM 角色必須具有 `kms:Decrypt` 許可。如需詳細資訊，請參閱[使用 KMS 加密所需的許可](security_iam_id-based-policy-examples.md#auth-kms-permissions)。

1. （選用） 若要從 VPC 啟動您的資源到 Amazon Comprehend，請在 VPC 下輸入 **VPC** ID，或從下拉式清單中選擇 ID。

   1. 選擇**子網路 （子網路） 下的子網路**。選取第一個子網路之後，您可以選擇其他子網路。

   1. 在**安全群組 (Security Group)** 下，如果您指定安全群組，請選擇要使用的安全群組。選取第一個安全群組之後，您可以選擇其他安全群組。
**注意**  
當您搭配自訂實體辨識任務使用 VPC 時，`DataAccessRole`用於建立和啟動操作的 必須具有存取輸入文件和輸出儲存貯體的 VPC 許可。

1. （選用） 若要將標籤新增至自訂實體辨識器，請在**標籤**下輸入鍵/值對。選擇 **Add tag (新增標籤)**。若要在建立辨識器之前移除此對，請選擇**移除標籤**。

1. 選擇**訓練**。

然後，新的辨識器會出現在清單中，顯示其狀態。它會先顯示為 `Submitted`。然後，它會`Training`針對處理訓練文件的分類器、可供使用的`Trained`分類器，以及出現錯誤的`In error`分類器顯示 。您可以按一下任務以取得有關辨識器的詳細資訊，包括任何錯誤訊息。

## 使用主控台建立自訂實體識別器 - 擴增資訊清單
<a name="getting-started-CER-PDF"></a>

**使用純文字、PDF 或文字文件訓練自訂實體辨識器**

1. 登入 AWS 管理主控台 並開啟 [Amazon Comprehend 主控台。](https://console.aws.amazon.com/comprehend/home?region=us-east-1#api-explorer:)

1. 從左側功能表中，選擇**自訂**，然後選擇**自訂實體辨識**。

1. 選擇**訓練辨識器**。

1. 為辨識器命名。名稱在區域和帳戶中必須是唯一的。

1. 選取語言。注意：如果您要訓練 PDF 或 Word 文件，英文是支援的語言。

1. 在**自訂實體類型**下，輸入您希望辨識器在資料集中找到的自訂標籤。

   實體類型必須為大寫，如果由多個單字組成，請以底線分隔單字。

1. 選擇**新增類型**。

1. 如果您想要新增其他實體類型，請輸入它，然後選擇**新增類型**。如果您想要移除已新增的實體類型之一，請選擇**移除類型**，然後選擇要從清單中移除的實體類型。最多可列出 25 種實體類型。

1. 若要加密訓練任務，請選擇**辨識器加密**，然後選擇要使用與目前帳戶相關聯的 KMS 金鑰，還是使用另一個帳戶。
   + 如果您使用的是與目前帳戶相關聯的金鑰，對於 **KMS 金鑰 ID**，請選擇金鑰 ID。
   + 如果您使用的是與不同帳戶相關聯的金鑰，對於 **KMS 金鑰 ARN**，請輸入金鑰 ID 的 ARN。
**注意**  
如需建立和使用 KMS 金鑰和相關聯加密的詳細資訊，請參閱 [AWS Key Management Service](https://docs.aws.amazon.com/kms/latest/developerguide/overview.html)。

1. 在**訓練資料**下，選擇**增強的資訊清單**做為您的資料格式：
   + **增強資訊清單** – 是由 Amazon SageMaker Ground Truth 產生的標記資料集。此檔案為 JSON 行格式。檔案中的每一行都是完整的 JSON 物件，其中包含訓練文件及其標籤。每個標籤都會在訓練文件中標註具名實體。您最多可以提供 5 個擴增的資訊清單檔案。如果您使用 PDF 文件進行訓練資料，則必須選取**增強的資訊清單**。您最多可以提供 5 個擴增的資訊清單檔案。對於每個檔案，您最多可以命名 5 個屬性，以用作訓練資料。

   如需可用格式的詳細資訊，以及範例的詳細資訊，請參閱 [訓練自訂實體辨識器模型](training-recognizers.md)。

1. 選取訓練模型類型。

   如果您已選取**純文字文件**，請在**輸入位置**下，輸入 Amazon SageMaker AIGround Truth 擴增資訊清單檔案的 Amazon S3URL。 Amazon SageMaker AIGround 您也可以導覽至 Amazon S3 （擴增資訊清單） 所在的儲存貯體或資料夾，然後選擇**選取資料夾**。

1. 在**屬性名稱**下，輸入包含註釋的屬性名稱。如果檔案包含來自多個鏈結標記任務的註釋，請為每個任務新增 屬性。在這種情況下，每個屬性都包含來自標記任務的一組註釋。注意：每個檔案最多可提供 5 個屬性名稱。

1. 選取**新增**。

1. 如果您選取**輸入位置**下的 **PDF、Word 文件**，請輸入 Amazon SageMaker AI Ground Truth 擴增資訊清單檔案的 Amazon S3URL。 Amazon SageMaker 您也可以導覽至 Amazon S3 中擴增資訊清單所在的儲存貯體或資料夾，然後選擇**選取資料夾**。

1. 輸入**註釋**資料檔案的 S3 字首。這些是您標記的 PDF 文件。

1. 輸入**來源**文件的 S3 字首。這些是您為標記任務提供給 Ground Truth 的原始 PDF 文件 （資料物件）。

   

1. 輸入包含註釋的屬性名稱。注意：每個檔案最多可提供 5 個屬性名稱。您未指定的檔案中的任何屬性都會遭到忽略。

1. 在 IAM 角色區段中，選取現有的 IAM 角色或建立新的角色。
   + **選擇現有的 IAM 角色** – 如果您已經擁有可存取輸入和輸出 Amazon S3 儲存貯體的 IAM 角色，請選取此選項。
   + **建立新的 IAM 角色** – 當您想要建立具有適當許可的新 IAM 角色，讓 Amazon Comprehend 存取輸入和輸出儲存貯體時，請選取此選項。
**注意**  
如果輸入文件已加密，則使用的 IAM 角色必須具有 `kms:Decrypt` 許可。如需詳細資訊，請參閱[使用 KMS 加密所需的許可](security_iam_id-based-policy-examples.md#auth-kms-permissions)。

1. （選用） 若要從 VPC 將您的資源啟動至 Amazon Comprehend，請在 VPC 下輸入 **VPC** ID，或從下拉式清單中選擇 ID。

   1. 選擇 **Subnet(s)** 下的子網路。選取第一個子網路之後，您可以選擇其他子網路。

   1. 在**安全群組 (Security Group)** 下，如果您指定了安全群組，請選擇要使用的安全群組。選取第一個安全群組之後，您可以選擇其他安全群組。
**注意**  
當您搭配自訂實體辨識任務使用 VPC 時，`DataAccessRole`用於建立和啟動操作的 必須具有存取輸入文件和輸出儲存貯體的 VPC 許可。

1. （選用） 若要將標籤新增至自訂實體辨識器，請在**標籤**下輸入鍵/值對。選擇 **Add tag (新增標籤)**。若要在建立辨識器之前移除此對，請選擇**移除標籤**。

1. 選擇**訓練**。

然後，新的辨識器會出現在清單中，顯示其狀態。它會先顯示為 `Submitted`。然後，它會`Training`針對正在處理訓練文件的分類器、可供使用的`Trained`分類器，以及發生錯誤的`In error`分類器顯示 。您可以按一下任務，以取得有關辨識器的詳細資訊，包括任何錯誤訊息。