

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 自訂資料識別符的組態選項
<a name="cdis-options"></a>

透過使用自訂資料識別符，您可以定義自訂條件，以偵測 Amazon Simple Storage Service (Amazon S3) 物件中的敏感資料。您可以補充 Amazon Macie 提供的[受管資料識別符](managed-data-identifiers.md)，並偵測反映組織特定案例、智慧財產權或專屬資料的敏感資料。

每個自訂資料識別符都會指定偵測條件，以及選擇性指定識別符產生的調查結果嚴重性設定。偵測條件會指定規則表達式，定義要在 S3 物件中比對的文字模式。條件也可以指定字元序列和精簡結果的鄰近規則。嚴重性設定會指定要指派給問題清單的嚴重性。嚴重性可以根據符合識別符偵測條件的文字出現次數。

**Topics**
+ [偵測條件](#cdis-detection-criteria)
+ [問題清單的嚴重性設定](#cdis-finding-severity)

## 偵測條件
<a name="cdis-detection-criteria"></a>

建立自訂資料識別符時，您可以指定規則表達式 (*regex*)，定義要比對的文字模式。您也可以指定字元序列，例如單字和片語，以及精簡結果的鄰近規則。字元序列可以是：*關鍵字*，也就是必須接近符合 regex 的文字的單字或片語，或*忽略單字*，也就是要從結果中排除的單字或片語。

對於 regex，Amazon Macie 支援 [Perl 相容規則表達式 (PCRE) 程式庫](https://www.pcre.org/)提供的模式語法子集。在 PCRE 程式庫提供的建構中，Macie 不支援下列模式元素：
+ 反向參考
+ 擷取群組
+ 條件式模式
+ 內嵌程式碼
+ 全域模式旗標，例如 `/i`、 `/m`和 `/x`
+ 遞迴模式
+ 正面和負面的前瞻和前瞻零寬度聲明，例如 `?=`、`?!`、 `?<=`和 `?<!`

regex 最多可包含 512 個字元。

若要為自訂資料識別符建立有效的 regex 模式，請注意下列秘訣和建議：
+ 只有在您預期模式出現在檔案的開頭或結尾，而不是行的開頭或結尾時，才使用錨點 (`^` 或 `$`)。
+ 基於效能考量，Macie 會限制邊界重複群組的大小。例如， `\d{100,1000}` 不會在 Macie 中編譯 。若要近似此功能，您可以使用開放式重複，例如 `\d{100,}`。
+ 若要使模式大小寫的部分不區分，您可以使用 `(?i)` 建構而非 `/i`旗標。
+ 您不需要手動最佳化字首或輪換。例如，`/hello|hi|hey/`將 變更為 `/h(?:ello|i|ey)/`並不會改善效能。
+ 基於效能考量，Macie 會限制重複的萬用字元數量。例如， `a*b*a*` 不會在 Macie 中編譯 。

為了防止運算式格式錯誤或長時間執行，Macie 會在您建立自訂資料識別符時，針對範例文字的集合自動測試規則運算式模式。如果 regex 發生問題，Macie 會傳回描述問題的錯誤。

除了 regex 之外，您還可以選擇指定字元序列和鄰近規則來精簡結果。

**關鍵字**  
這些是特定的字元序列，必須接近符合規則運算式模式的文字。鄰近需求會根據 S3 物件的儲存格式或檔案類型而有所不同：  
+ **結構化單欄式資料** – 如果文字符合規則運算式模式，且關鍵字位於存放文字的欄位或欄名稱中，或文字在相同欄位或儲存格值中關鍵字的最大相符距離之前和之內，則 Macie 會包含結果。Microsoft Excel 工作手冊、CSV 檔案和 TSV 檔案都是這種情況。
+ **結構化記錄型資料** – 如果文字符合規則運算式模式，且文字位於關鍵字的最大相符距離內，則 Macie 會包含結果。關鍵字可以位於存放文字之欄位或陣列路徑中的 元素名稱中，也可以在存放文字之欄位或陣列中的前面，並且是相同值的一部分。這種情況適用於 Apache Avro 物件容器、Apache Parquet 檔案、JSON 檔案和 JSON Lines 檔案。
+ **非結構化資料** – 如果文字符合規則運算式模式，且文字前面加上關鍵字的最大相符距離內，則 Macie 會包含結果。這種情況適用於 Adobe 可攜式文件格式檔案、Microsoft Word 文件、電子郵件訊息，以及 CSV、JSON、JSON Lines 和 TSV 檔案以外的非二進位文字檔案。這包括這些檔案類型中的任何結構化資料，例如資料表。
您可以指定最多 50 個關鍵字。每個關鍵字可以包含 3–90 個 UTF-8 字元。關鍵字不區分大小寫。

**最大配對距離**  
這是關鍵字的字元型鄰近規則。Macie 使用此設定來判斷關鍵字是否在符合規則運算式模式的文字前面。設定會定義完整關鍵字結尾與符合規則運算式模式的文字結尾之間可存在的字元數上限。如果文字符合下列條件，Macie 會包含結果：  
+ 符合 regex 模式，
+ 在至少一個完整關鍵字後發生，且
+ 在關鍵字的指定距離內發生。
否則，Macie 會從結果中排除文字。  
您可以指定 1–300 個字元的距離。預設距離為 50 個字元。為了獲得最佳結果，此距離應大於 regex 設計用來偵測的最小文字字元數。如果只有部分文字在關鍵字的最大相符距離內，Macie 不會將其包含在結果中。

**忽略單字**  
這些是要從結果中排除的特定字元序列。如果文字符合規則運算式模式，但包含忽略字，則 Macie 不會將其包含在結果中。  
您可以指定最多 10 個忽略單字。每個忽略單字可以包含 4–90 個 UTF-8 字元。忽略單詞需區分大小寫。

**注意**  
在您建立自訂資料識別符之前，強烈建議您使用範例資料來測試和精簡其偵測條件。由於敏感資料探索任務會使用自訂資料識別符，因此您無法在建立自訂資料識別符之後變更自訂資料識別符。這有助於確保您擁有不可變的敏感資料調查結果歷史記錄，以及您執行的資料隱私權和保護稽核或調查的探索結果。  
您可以使用 Amazon Macie 主控台或 Amazon Macie API 來測試偵測條件。若要使用主控台測試條件，請在建立自訂資料識別符時使用**評估**區段中的選項。若要以程式設計方式測試條件，請使用 Amazon Macie API 的 [TestCustomDataIdentifier](https://docs.aws.amazon.com/macie/latest/APIReference/custom-data-identifiers-test.html) 操作。如果您使用的是 AWS Command Line Interface，請執行 [test-custom-data-identifier](https://docs.aws.amazon.com/cli/latest/reference/macie2/test-custom-data-identifier.html) 命令來測試條件。

如需關鍵字如何協助您尋找敏感資料並避免誤報的示範，請觀看下列影片：




## 問題清單的嚴重性設定
<a name="cdis-finding-severity"></a>

當您建立自訂資料識別符時，您也可以為識別符產生的敏感資料調查結果指定自訂嚴重性設定。根據預設，Amazon Macie 會將*中等*嚴重性指派給自訂資料識別符產生的所有調查結果。如果 S3 物件包含至少一個符合偵測條件的文字，Macie 會自動將*中*嚴重性指派給產生的調查結果。

使用自訂嚴重性設定，您可以根據符合偵測條件的文字出現次數來指定要指派的嚴重性。您可以定義最多三個嚴重性層級*的出現閾值*：*低* （最不嚴重）、*中*和*高* （最嚴重）。*出現閾值*是 S3 物件中必須存在才能產生具有指定嚴重性之調查結果的相符項目數量下限。如果您指定多個閾值，則閾值必須依嚴重性遞增，從*低*到*高*。

例如，下圖顯示指定三個出現閾值的嚴重性設定，每個 Macie 支援的嚴重性等級各一個。

![\[指定低、中和高嚴重性層級出現閾值的嚴重性設定。\]](http://docs.aws.amazon.com/zh_tw/macie/latest/user/images/scrn-cdi-severity.png)


下表指出自訂資料識別符產生的調查結果嚴重性。


| 發生閾值 | 嚴重性等級 | 結果 | 
| --- | --- | --- | 
| 1 | 低 | 如果 S3 物件包含 1-49 個符合偵測條件的文字出現次數，則結果調查結果的嚴重性為低。 | 
| 50 | 中 | 如果 S3 物件包含 50–99 個符合偵測條件的文字，則結果調查結果的嚴重性為中。 | 
| 100 | 高 | 如果 S3 物件包含 100 個或多個符合偵測條件的文字，則結果調查結果的嚴重性為高。 | 

您也可以使用嚴重性設定來指定是否完全建立問題清單。如果 S3 物件的出現次數少於最低出現次數閾值，Macie 不會建立問題清單。