

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 執行即時自訂辨識器分析
<a name="running-cer-sync"></a>

即時分析適用於在小型文件送達時處理它們的應用程式。例如，您可以在社交媒體貼文、支援票證或客戶評論中偵測自訂實體。

**開始之前**  
您需要自訂實體辨識模型 （也稱為辨識器），才能偵測自訂實體。如需這些模型的詳細資訊，請參閱 [訓練自訂實體辨識器模型](training-recognizers.md)。

使用純文字註釋訓練的辨識器僅支援純文字文件的實體偵測。使用 PDF 文件註釋訓練的辨識器支援純文字文件、影像、PDF 檔案和 Word 文件的實體偵測。如需輸入檔案的資訊，請參閱 [即時自訂分析的輸入](idp-inputs-sync.md)。

如果您打算分析影像檔案或掃描的 PDF 文件，IAM 政策必須授予使用兩種 Amazon Textract API 方法 (DetectDocumentText 和 AnalyzeDocument) 的許可。Amazon Comprehend 會在文字擷取期間叫用這些方法。如需政策範例，請參閱 [執行文件分析動作所需的許可](security_iam_id-based-policy-examples.md#security-iam-based-policy-perform-cmp-actions)。

**Topics**
+ [自訂實體辨識的即時分析 （主控台）](detecting-cer-real-time.md)
+ [自訂實體辨識 (API) 的即時分析](detecting-cer-real-time-api.md)
+ [用於即時分析的輸出](outputs-cer-sync.md)

# 自訂實體辨識的即時分析 （主控台）
<a name="detecting-cer-real-time"></a>

您可以使用 Amazon Comprehend 主控台，透過自訂模型執行即時分析。首先，您會建立端點來執行即時分析。建立端點之後，您會執行即時分析。

如需佈建端點輸送量和相關成本的資訊，請參閱 [使用 Amazon Comprehend 端點](using-endpoints.md)。

**Topics**
+ [建立用於自訂實體偵測的端點](#detecting-cer-real-time-create-endpoint)
+ [執行即時自訂實體偵測](#detecting-cer-real-time-run)

## 建立用於自訂實體偵測的端點
<a name="detecting-cer-real-time-create-endpoint"></a>

**建立端點 （主控台）**

1. 登入 AWS 管理主控台 並前往 https：//[https://console.aws.amazon.com/comprehend/](https://console.aws.amazon.com/comprehend/) 開啟 Amazon Comprehend 主控台

1. 從左側功能表中，選擇**端點**，然後選擇**建立端點**按鈕。**建立端點**畫面隨即開啟。

1. 為端點命名。名稱在目前區域和帳戶中必須是唯一的。

1. 選擇您要連接新端點的自訂模型。從下拉式清單中，您可以依模型名稱搜尋。
**注意**  
您必須先建立模型，才能連接端點。如果您還沒有模型，請參閱 [訓練自訂實體辨識器模型](training-recognizers.md)。

1. （選用） 若要將標籤新增至端點，請在**標籤**下輸入鍵/值對，然後選擇**新增標籤**。若要在建立端點之前移除此對，請選擇**移除標籤**。

1. 輸入要指派給端點的推論單位 (IUs數目。每個單位代表每秒 100 個字元的輸送量，每秒最多兩個文件。如需端點輸送量的詳細資訊，請參閱 [使用 Amazon Comprehend 端點](using-endpoints.md)。

1. （選用） 如果您要建立新的端點，您可以選擇使用 IU 估算器。估算器可協助您判斷要請求IUs 數量。推論單位數量取決於輸送量或每秒要分析的字元數。

1. 從**購買摘要**中，檢閱預估的每小時、每日和每月端點成本。

1. 如果您了解您的帳戶會從端點開始產生費用，直到您刪除為止，請選取核取方塊。

1. 選擇**建立端點**。

## 執行即時自訂實體偵測
<a name="detecting-cer-real-time-run"></a>

為自訂實體辨識器模型建立端點後，您可以執行即時分析來偵測個別文件中的實體。

完成下列步驟，使用 Amazon Comprehend 主控台偵測文字中的自訂實體。

1. 登入 AWS 管理主控台 並開啟位於 https：//[https://console.aws.amazon.com/comprehend/](https://console.aws.amazon.com/comprehend/) 的 Amazon Comprehend 主控台

1. 從左側功能表中，選擇**即時分析**。

1. 在**輸入文字**區段中，針對**分析類型**，選擇**自訂**。

1. 針對**選取端點**，選擇與您要使用的實體偵測模型相關聯的端點。

1. 若要指定用於分析的輸入資料，您可以輸入文字或上傳檔案。
   + 若要輸入文字：

     1. 選擇**輸入文字**。

     1. 輸入您要分析的文字。
   + 若要上傳檔案：

     1. 選擇**上傳檔案**，然後輸入要上傳的檔案名稱。

     1. （選用） 在**進階讀取動作**下，您可以覆寫文字擷取的預設動作。如需詳細資訊，請參閱[設定文字擷取選項](idp-set-textract-options.md)。

1. 選擇**分析**。主控台會顯示分析的輸出，以及可信度評估。

# 自訂實體辨識 (API) 的即時分析
<a name="detecting-cer-real-time-api"></a>

您可以使用 Amazon Comprehend API 搭配自訂模型執行即時分析。首先，您會建立端點來執行即時分析。建立端點之後，您會執行即時分析。

如需佈建端點輸送量和相關成本的資訊，請參閱 [使用 Amazon Comprehend 端點](using-endpoints.md)。

**Topics**
+ [建立用於自訂實體偵測的端點](#detecting-cer-real-time-create-endpoint-api)
+ [執行即時自訂實體偵測](#detecting-cer-real-time-run)

## 建立用於自訂實體偵測的端點
<a name="detecting-cer-real-time-create-endpoint-api"></a>

如需與端點相關的成本資訊，請參閱 [使用 Amazon Comprehend 端點](using-endpoints.md)。

### 使用 建立端點 AWS CLI
<a name="detecting-cer-real-time-create-endpoint-examples"></a>

若要使用 建立端點 AWS CLI，請使用 `create-endpoint`命令：

```
$ aws comprehend create-endpoint \
> --desired-inference-units number of inference units \
> --endpoint-name endpoint name \
> --model-arn arn:aws:comprehend:region:account-id:model/example \
> --tags Key=Key,Value=Value
```

如果您的命令成功，Amazon Comprehend 會以端點 ARN 回應：

```
{
   "EndpointArn": "Arn"
}
```

如需此命令、其參數引數及其輸出的詳細資訊，請參閱《 AWS CLI 命令參考[https://docs.aws.amazon.com/cli/latest/reference/comprehend/create-endpoint.html](https://docs.aws.amazon.com/cli/latest/reference/comprehend/create-endpoint.html)》中的 。

## 執行即時自訂實體偵測
<a name="detecting-cer-real-time-run"></a>

為自訂實體辨識器模型建立端點之後，您可以使用端點來執行 [DetectEntities](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DetectEntities.html) API 操作。您可以使用 `text`或 `bytes` 參數提供文字輸入。使用 `bytes` 參數輸入其他輸入類型。

對於影像檔案和 PDF 檔案，您可以使用 `DocumentReaderConfig` 參數覆寫預設的文字擷取動作。如需詳細資訊，請參閱[設定文字擷取選項](idp-set-textract-options.md)。

### 使用 偵測文字中的實體 AWS CLI
<a name="detecting-cer-real-time-run-cli1"></a>

若要偵測文字中的自訂實體，請使用 `text` 參數中的輸入文字執行 `detect-entities`命令。

**Example ：使用 CLI 偵測輸入文字中的實體**  

```
$ aws comprehend detect-entities \
> --endpoint-arn arn \
> --language-code en \
> --text  "Andy Jassy is the CEO of Amazon."
```
如果您的命令成功，Amazon Comprehend 會回應分析。對於 Amazon Comprehend 偵測到的每個實體，它提供實體類型、文字、位置和可信度分數。

### 使用 偵測半結構化文件中的實體 AWS CLI
<a name="detecting-cer-real-time-run-cli2"></a>

若要偵測 PDF、Word 或映像檔中的自訂實體，請在 `bytes` 參數中使用輸入檔案執行 `detect-entities`命令。

**Example ：使用 CLI 偵測映像檔案中的實體**  
此範例說明如何使用 base64 編碼影像位元組`fileb`的選項傳入影像檔案。如需詳細資訊，請參閱 AWS Command Line Interface 《 使用者指南》中的[二進位大型物件](https://docs.aws.amazon.com/cli/latest/userguide/cli-usage-parameters-types.html#parameter-type-blob)。  
此範例也會傳入名為 的 JSON 檔案，`config.json`以設定文字擷取選項。  

```
$ aws comprehend detect-entities \
> --endpoint-arn arn \
> --language-code en \
> --bytes fileb://image1.jpg   \
> --document-reader-config file://config.json
```
**config.json** 檔案包含下列內容。  

```
 {
    "DocumentReadMode": "FORCE_DOCUMENT_READ_ACTION",
    "DocumentReadAction": "TEXTRACT_DETECT_DOCUMENT_TEXT"    
 }
```

如需命令語法的詳細資訊，請參閱《*Amazon Comprehend API 參考*》中的 [DetectEntities](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DetectEntities.html)。

# 用於即時分析的輸出
<a name="outputs-cer-sync"></a>

## 文字輸入的輸出
<a name="outputs-cer-sync-text"></a>

如果您使用 `Text` 參數輸入文字，輸出會包含分析偵測到的實體陣列。下列範例顯示偵測到兩個 JUDGE 實體的分析。

```
{
        "Entities":
        [
            {
                "BeginOffset": 0,
                "EndOffset": 22,
                "Score": 0.9763959646224976,
                "Text": "John Johnson",
                "Type": "JUDGE"
            },
            {
                "BeginOffset": 11,
                "EndOffset": 15,
                "Score": 0.9615424871444702,
                "Text": "Thomas Kincaid",
                "Type": "JUDGE"
            }
        ]
    }
```

## 半結構化輸入的輸出
<a name="outputs-cer-sync-other"></a>

對於半結構化輸入文件或文字檔案，輸出可以包含下列其他欄位：
+ DocumentMetadata – 文件的擷取資訊。中繼資料包含文件中的頁面清單，其中包含從每個頁面擷取的字元數。如果請求包含 `Byte` 參數，則此欄位會出現在回應中。
+ DocumentType – 輸入文件中每個頁面的文件類型。此欄位會出現在包含 `Byte` 參數之請求的回應中。
+ 區塊 – 輸入文件中每個文字區塊的相關資訊。區塊是巢狀的。頁面區塊包含每行文字的區塊，其中包含每個單字的區塊。此欄位會出現在包含 `Byte` 參數之請求的回應中。
+ BlockReferences – 此實體每個區塊的參考。此欄位會出現在包含 `Byte` 參數之請求的回應中。欄位不存在於文字檔案。
+ 錯誤 – 系統在處理輸入文件時偵測到的頁面層級錯誤。如果系統沒有發生錯誤，則此欄位為空白。

如需這些輸出欄位的說明，請參閱《*Amazon Comprehend API 參考*》中的 [DetectEntities](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DetectEntities.html)。如需配置元素的詳細資訊，請參閱《[Amazon Textract 開發人員指南》中的 Amazon Textract 分析物件](https://docs.aws.amazon.com/textract/latest/dg/how-it-works-document-layout.html)。

下列範例顯示單頁掃描 PDF 輸入文件的輸出。

```
{
    "Entities": [{
        "Score": 0.9984670877456665,
        "Type": "DATE-TIME",
        "Text": "September 4,",
        "BlockReferences": [{
            "BlockId": "42dcaaee-c484-4b5d-9e3f-ae0be928b3e1",
            "BeginOffset": 0,
            "EndOffset": 12,
            "ChildBlocks": [{
                    "ChildBlockId": "6e9cbb43-f8be-4da0-9a4b-ff9a6c350a14",
                    "BeginOffset": 0,
                    "EndOffset": 9
                },
                {
                    "ChildBlockId": "599e0d53-ae9f-491b-a762-459b22c79ff5",
                    "BeginOffset": 0,
                    "EndOffset": 2
                },
                {
                    "ChildBlockId": "599e0d53-ae9f-491b-a762-459b22c79ff5",
                    "BeginOffset": 0,
                    "EndOffset": 2
                }
            ]
        }]
    }],
    "DocumentMetadata": {
        "Pages": 1,
        "ExtractedCharacters": [{
            "Page": 1,
            "Count": 609
        }]
    },
    "DocumentType": [{
        "Page": 1,
        "Type": "SCANNED_PDF"
    }],
    "Blocks": [{
        "Id": "ee82edf3-28de-4d63-8883-40e2e4938ccb",
        "BlockType": "LINE",
        "Text": "Your Band",
        "Page": 1,
        "Geometry": {
            "BoundingBox": {
                "Height": 0.024125460535287857,
                "Left": 0.11745482683181763,
                "Top": 0.06821706146001816,
                "Width": 0.12074867635965347
            },
            "Polygon": [{
                    "X": 0.11745482683181763,
                    "Y": 0.06821706146001816
                },
                {
                    "X": 0.2382034957408905,
                    "Y": 0.06821706146001816
                },
                {
                    "X": 0.2382034957408905,
                    "Y": 0.09234252572059631
                },
                {
                    "X": 0.11745482683181763,
                    "Y": 0.09234252572059631
                }
            ]
        },
        "Relationships": [{
            "Ids": [
                "b105c561-c8d9-485a-a728-7a5b1a308935",
                "60ecb119-3173-4de2-8c5d-de182a5f86a5"
            ],
            "Type": "CHILD"
        }]
    }]
}
```

下列範例顯示用於分析原生 PDF 文件的輸出。

**Example PDF 文件自訂實體辨識分析的範例輸出**  

```
{
        "Blocks":
        [
            {
                "BlockType": "LINE",
                "Geometry":
                {
                    "BoundingBox":
                    {
                        "Height": 0.012575757575757575,
                        "Left": 0.0,
                        "Top": 0.0015063131313131314,
                        "Width": 0.02262091503267974
                    },
                    "Polygon":
                    [
                        {
                            "X": 0.0,
                            "Y": 0.0015063131313131314
                        },
                        {
                            "X": 0.02262091503267974,
                            "Y": 0.0015063131313131314
                        },
                        {
                            "X": 0.02262091503267974,
                            "Y": 0.014082070707070706
                        },
                        {
                            "X": 0.0,
                            "Y": 0.014082070707070706
                        }
                    ]
                },
                "Id": "4330efed-6334-4fc4-ba48-e050afa95c8d",
                "Page": 1,
                "Relationships":
                [
                    {
                        "ids":
                        [
                            "f343ce48-583d-4abe-b84b-a232e266450f"
                        ],
                        "type": "CHILD"
                    }
                ],
                "Text": "S-3"
            },
            {
                "BlockType": "WORD",
                "Geometry":
                {
                    "BoundingBox":
                    {
                        "Height": 0.012575757575757575,
                        "Left": 0.0,
                        "Top": 0.0015063131313131314,
                        "Width": 0.02262091503267974
                    },
                    "Polygon":
                    [
                        {
                            "X": 0.0,
                            "Y": 0.0015063131313131314
                        },
                        {
                            "X": 0.02262091503267974,
                            "Y": 0.0015063131313131314
                        },
                        {
                            "X": 0.02262091503267974,
                            "Y": 0.014082070707070706
                        },
                        {
                            "X": 0.0,
                            "Y": 0.014082070707070706
                        }
                    ]
                },
                "Id": "f343ce48-583d-4abe-b84b-a232e266450f",
                "Page": 1,
                "Relationships":
                [],
                "Text": "S-3"
            }
        ],
        "DocumentMetadata":
        {
            "PageNumber": 1,
            "Pages": 1
        },
        "DocumentType": "NativePDF",
        "Entities":
        [
            {
                "BlockReferences":
                [
                    {
                        "BeginOffset": 25,
                        "BlockId": "4330efed-6334-4fc4-ba48-e050afa95c8d",
                        "ChildBlocks":
                        [
                            {
                                "BeginOffset": 1,
                                "ChildBlockId": "cbba5534-ac69-4bc4-beef-306c659f70a6",
                                "EndOffset": 6
                            }
                        ],
                        "EndOffset": 30
                    }
                ],
                "Score": 0.9998825926329088,
                "Text": "0.001",
                "Type": "OFFERING_PRICE"
            },
            {
                "BlockReferences":
                [
                    {
                        "BeginOffset": 41,
                        "BlockId": "f343ce48-583d-4abe-b84b-a232e266450f",
                        "ChildBlocks":
                        [
                            {
                                "BeginOffset": 0,
                                "ChildBlockId": "292a2e26-21f0-401b-a2bf-03aa4c47f787",
                                "EndOffset": 9
                            }
                        ],
                        "EndOffset": 50
                    }
                ],
                "Score": 0.9809727537330395,
                "Text": "6,097,560",
                "Type": "OFFERED_SHARES"
            }
        ],
        "File": "example.pdf",
        "Version": "2021-04-30"
    }
```