

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 偵測 PII 實體
<a name="how-pii"></a>

您可以使用 Amazon Comprehend 來偵測英文或西班牙文文字文件的 *PII 實體*。PII 實體是特定類型的個人身分識別資訊 (PII)。使用 PII 偵測來尋找 PII 實體或修改文字中的 PII 實體。

**Topics**
+ [尋找 PII 實體](#how-pii-locate)
+ [修訂 PII 實體](#how-pii-redact)
+ [PII 通用實體類型](#how-pii-types)
+ [國家/地區特定的 PII 實體類型](#how-pii-types-country)

## 尋找 PII 實體
<a name="how-pii-locate"></a>

若要在文字中找到 PII 實體，您可以使用即時分析快速分析單一文件。您也可以在文件集合上啟動非同步批次工作。

您可以使用 主控台或 API 來即時分析單一文件。您的輸入文字最多可包含 100 KB 的 UTF-8 編碼字元。

例如，您可以提交下列輸入文字來尋找 PII 實體：

*Paulo Santos 您好。信用卡帳戶 1111-0000-1111-0000 的最新陳述式已郵寄至 123 Any Street， Seattle， WA 98109。*

輸出包含「Paul Santos」具有類型 `NAME`、「1111-0000-1111-0000」具有類型 `CREDIT_DEBIT_NUMBER`、「123 Any Street， Seattle， WA 98109」具有類型 的資訊`ADDRESS`。

 Amazon Comprehend 會傳回偵測到的 PII 實體清單，每個 PII 實體的資訊如下：
+ 預估偵測到的文字跨度為偵測到的實體類型的機率的分數。
+ PII 實體類型。
+ 文件中 PII 實體的位置，指定為實體開頭和結尾的字元位移。

 例如，先前提到的輸入文字會產生下列回應：

```
{
    "Entities": [
        {
            "Score": 0.9999669790267944,
            "Type": "NAME",
            "BeginOffset": 6,
            "EndOffset": 18
        },
        {
            "Score": 0.8905550241470337,
            "Type": "CREDIT_DEBIT_NUMBER",
            "BeginOffset": 69,
            "EndOffset": 88
        },
        {
            "Score": 0.9999889731407166,
            "Type": "ADDRESS",
            "BeginOffset": 103,
            "EndOffset": 138
        }
    ]
}
```

## 修訂 PII 實體
<a name="how-pii-redact"></a>

若要修訂文字中的 PII 實體，您可以使用 主控台或 API 來啟動非同步批次任務。Amazon Comprehend 會傳回輸入文字的副本，其中包含每個 PII 實體的修訂。

例如，您可以提交下列輸入文字來修訂 PII 實體：

*Paulo Santos 您好。信用卡帳戶 1111-0000-1111-0000 的最新陳述式已郵寄至 123 Any Street， Seattle， WA 98109。*

輸出檔案包含下列文字：

*您好 \*\*\*\*\* \*\*\*\*\*\*。信用卡帳戶的最新陳述式 \*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\* 已郵寄至 \*\*\* \*\*\* \*\*\*\*\*\*\* \*\*\*\*\*\*\*\* \*\* \*\*\*\*\*。*

## PII 通用實體類型
<a name="how-pii-types"></a>

有些 PII 實體類型是通用的 （非特定於個別國家/地區），例如電子郵件地址和信用卡號碼。Amazon Comprehend 會偵測下列類型的通用 PII 實體：

**ADDRESS**  
實體地址，例如 "100 Main Street, Anytown, USA" 或 "Suite \#12, Building 123"。地址可以包括街道、建築物、位置、城市、州、國家/地區、郡、郵遞區號、分區、鄰里等資訊。

**AGE**  
個人的年齡，包括數量和時間單位。例如，在「我 40 歲」一詞中，Amazon Comprehend 將「40 歲」視為年齡。

**AWS\_ACCESS\_KEY**  
與私密存取金鑰相關聯的唯一識別符；您可以使用存取金鑰 ID 和私密存取金鑰以密碼編譯方式簽署程式設計 AWS 請求。

**AWS\_SECRET\_KEY**  
與存取金鑰相關聯的唯一識別符。您可以使用存取金鑰 ID 和私密存取金鑰，以密碼編譯方式簽署程式設計 AWS 請求。

**CREDIT\_DEBIT\_CVV**  
VISA、MasterCard 卡和 Discover 信用卡和簽帳卡上存在 3 位數卡驗證碼 (CVV)。在美國運通信用卡或簽帳卡，CVV 是一個 4 位數的數字代碼。

**CREDIT\_DEBIT\_EXPIRY**  
信用卡或簽帳卡到期日。該數字通常為 4 位數，格式為月/年或 MM/YY。Amazon Comprehend 會辨識過期日期，例如 01/21、01/2021 和 2021 年 1 月。

**CREDIT\_DEBIT\_NUMBER**  
信用卡或簽帳卡號碼。這些數字的長度從 13 到 16 位數不等。不過，當只有最後四位數字時，Amazon Comprehend 也會辨識信用卡或簽帳金融卡號碼。

**DATE\_TIME**  
日期可以包含年、月、日、星期幾或一天中的時間。例如，Amazon Comprehend 會將「2020 年 1 月 19 日」或「上午 11 點」視為日期。Amazon Comprehend 將辨識部分日期、日期範圍和日期間隔。它也會辨識幾十年，例如「1990 年代」。

**DRIVER\_ID**  
指派給駕照的號碼，這是官方文件，允許個人在公有道路上操作一或多個機動車輛。駕照號碼由英數字元組成。

**EMAIL**  
電子郵件位址，例如 marymajor@email.com。

**INTERNATIONAL\_BANK\_ACCOUNT\_NUMBER**  
國際銀行帳戶號碼在每個國家/地區都有特定的格式。請參閱 https：//[www.iban.com/structure](https://www.iban.com/structure)。

**IP\_ADDRESS**  
IPv4 位址，例如 198.51.100.0。

**LICENSE\_PLATE**  
車輛的車牌是由註冊車輛的州或國家/地區核發。客車的格式通常為 5 到 8 位數，由大寫字母和數字組成。格式會根據發行州或國家/地區的位置而有所不同。

**MAC\_ADDRESS**  
媒體存取控制 (MAC) 地址是指派給網路介面控制器 (NIC) 的唯一識別符。

**NAME**  
個人的姓名。此實體類型不包含稱謂，例如醫師、先生、太太或小姐。Amazon Comprehend 不會將此實體類型套用至屬於組織或地址的名稱。例如，Amazon Comprehend 將 "John Doe Organization" 視為組織，並將 "Jane Doe Street" 視為地址。

**PASSWORD**  
用作密碼的英數字串，例如 "\*very20special\#pass\*"。

**PHONE**  
電話號碼。此實體類型還包括傳真和呼叫器號碼。

**PIN**  
您可以用來存取銀行帳戶的 4 位數個人識別號碼 (PIN)。

**SWIFT\_CODE**  
SWIFT 代碼是銀行識別符代碼 (BIC) 的標準格式，用於指定特定的銀行或分行。銀行使用這些代碼進行匯款，例如國際電匯。  
SWIFT 代碼由 8 個或 11 個字元組成。11 位數代碼是指特定的分行，而 8 位數代碼 (或結尾為 'XXX' 的 11 位數代碼) 是指總部或主要辦公室。

**URL**  
網址，例如 www.example.com。

**USERNAME**  
識別帳戶的使用者名稱，例如登入名稱、螢幕名稱、別名或控制代碼。

**VEHICLE\_IDENTIFICATION\_NUMBER**  
車輛識別號碼 (VIN) 可唯一識別車輛。VIN 內容和格式在 ISO 3779 規格中定義。每個國家/地區都有 VIN 的特定代碼和格式。

## 國家/地區特定的 PII 實體類型
<a name="how-pii-types-country"></a>

有些 PII 實體類型是國家特定，例如護照號碼和其他政府核發的 ID 號碼。Amazon Comprehend 會偵測下列類型的國家/地區特定 PII 實體：

**CA\_HEALTH\_NUMBER**  
加拿大健康服務號碼是 10 位數的唯一識別符，個人需要此識別符才能使用醫療保健權益。

**CA\_SOCIAL\_INSURANCE\_NUMBER**  
加拿大社會保險號碼 (SIN) 是 9 位數的唯一識別符，個人需要此識別符才能使用政府計劃和權益。  
SIN 格式為三組 3 個位數，例如 123-456-789。SIN 可以透過稱為 [Luhn 演算法](https://www.wikipedia.org/wiki/Luhn_algorithm)的簡單檢查位數程序進行驗證。

**IN\_AADHAAR**  
Indian Aadhaar 是由印度政府核發給印度居民的 12 位數唯一識別號碼。Aadhaar 格式在第四個和第八個數字之後有空格或連字號。

**IN\_NREGA**  
印度國家農村就業保證法 (NREGA) 號碼包含兩個字母，後面接著 14 個數字。

**IN\_PERMANENT\_ACCOUNT\_NUMBER**  
印度永久帳戶號碼是由收入稅部門發行的 10 位數唯一英數字元號碼。

**IN\_VOTER\_NUMBER**  
印度選民 ID 由三個字母組成，後面接著七個數字。

**UK\_NATIONAL\_HEALTH\_SERVICE\_NUMBER**  
英國國家衛生服務號碼是 10-17 位數的數字，例如 **485 777 3456**。目前的系統格式為 10 位數的數字，並在第 3 位數和第 6 位數之後加上空格。最後一個數字是錯誤偵測檢查總和。  
17 位數格式在第 10 位數和第 13 位數之後有空格。

**UK\_NATIONAL\_INSURANCE\_NUMBER**  
英國國民保險號碼 (NINO) 可讓個人存取國民保險 (社會安全) 權益。它也用於英國稅務系統中的某些目的。  
數字為 9 位數，以 2 個字母開頭，隨後接著 6 個數字和 1 個字母。NINO 的格式可為在 2 個字母後面以及在第 2、4 和 6 位數後面加上空格或破折號。

**UK\_UNIQUE\_TAXPAYER\_REFERENCE\_NUMBER**  
英國唯一納稅人參考 (UTR) 是識別納稅人或企業的 10 位數號碼。

**BANK\_ACCOUNT\_NUMBER**  
美國銀行帳號，通常為 10 到 12 位數。當只有最後四位數字時，Amazon Comprehend 也會識別銀行帳戶號碼。

**BANK\_ROUTING**  
美國銀行帳戶的分行代碼。這些通常是九位數，但 Amazon Comprehend 也會在只有最後四位數時識別轉接號碼。

**PASSPORT\_NUMBER**  
美國護照號碼。護照號碼範圍為 6 到 9 個英數字元。

**US\_INDIVIDUAL\_TAX\_IDENTIFICATION\_NUMBER**  
美國個人納稅人識別號碼 (ITIN) 是一個以 "9" 開頭的 9 位數號碼，其中包含 "7" 或 "8" 作為第 4 位數。ITIN 的格式可以在第 3 和第 4 個數字後面使用空格或破折號。

**SSN**  
美國社會安全號碼 (SSN) 是核發給美國公民、永久居民和臨時工作居民的 9 位數號碼。當只有最後四位數字時，Amazon Comprehend 也會辨識社會安全號碼。