建立自訂資料識別碼 - Amazon Macie

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

建立自訂資料識別碼

自訂資料識別符是您定義的一組條件,用於偵測 Amazon Simple Storage Service (Amazon S3) 物件中的敏感資料。當您建立自訂資料識別符時,您可以指定規則表達式 (regex),定義要在 S3 物件中比對的文字模式。您也可以指定字元序列和精簡結果的鄰近規則。字元序列可以是:關鍵字,也就是必須接近符合 regex 文字的單字或片語,或忽略單字,也就是要從結果中排除的單字或片語。透過使用自訂資料識別符,您可以補充 Amazon Macie 提供的受管資料識別符,並偵測反映組織特定案例、智慧財產權或專屬資料的敏感資料。

例如,許多公司都有員工 IDs 的特定語法。這類語法之一可能是:大寫字母,指出員工是全職 (F) 還是兼職 (P) 員工,後面接著連字號 (–),後面接著識別員工的八位數序列。範例如下:全職員工為 F–12345678,兼職員工為 P–87654321。若要偵測使用此語法的員工 IDs,您可以建立自訂資料識別符來指定下列 regex:[A-Z]-\d{8}。若要精簡分析並避免誤報,您也可以將識別符設定為使用關鍵字 (employeeemployee ID),且配對距離上限為 20 個字元。使用這些條件時,如果文字發生在關鍵字員工員工 ID 之後,且所有文字都發生在其中一個關鍵字的 20 個字元內,則結果會包含符合 regex 的文字。

如需關鍵字如何協助您尋找敏感資料並避免誤報的示範,請觀看下列影片:

除了偵測條件之外,您還可以選擇性地為自訂資料識別符產生的調查結果指定自訂嚴重性設定。嚴重性可以根據符合識別符偵測條件的文字出現次數。如果您未指定這些設定,Macie 會自動將中等嚴重性指派給識別符產生的所有調查結果。嚴重性不會根據符合識別符偵測條件的文字出現次數而變更。

如需這些和其他設定的詳細資訊,請參閱 自訂資料識別符的組態選項

建立自訂資料識別符

您可以使用 Amazon Macie 主控台或 Amazon Macie API 建立自訂資料識別符。

Console

請依照下列步驟,使用 Amazon Macie 主控台建立自訂資料識別符。

建立自訂資料識別符
  1. 在 https://https://console.aws.amazon.com/macie/ 開啟 Amazon Macie 主控台。

  2. 在導覽窗格中的設定下,選擇自訂資料識別符

  3. 選擇建立

  4. 名稱中,輸入自訂資料識別符的名稱。該名稱最多可包含 128 個字元。

  5. 針對描述,選擇性輸入自訂資料識別符的簡短描述。該描述最多可包含 512 個字元。

    注意

    避免在自訂資料識別符的名稱或描述中包含敏感資料。根據允許在 Macie 中執行的動作,您帳戶的其他使用者可能可以存取名稱或描述。

  6. 針對規則表達式,輸入定義要比對之文字模式的規則表達式 (regex)。regex 最多可包含 512 個字元。

    Macie 支援 Perl 相容規則表達式 (PCRE) 程式庫提供的模式語法子集。如需其他詳細資訊和秘訣,請參閱自訂資料識別符的偵測條件

  7. 對於關鍵字,選擇性地輸入最多 50 個字元的序列 (以逗號分隔),以定義必須與符合規則運算式模式的文字相鄰的特定文字。

    只有當文字符合規則運算式模式,且文字位於其中一個關鍵字的最大相符距離內時,Macie 才會在結果中出現 。每個關鍵字可以包含 3–90 個 UTF-8 字元。關鍵字不區分大小寫。

  8. 對於忽略單字,選擇性地輸入最多 10 個字元序列 (以逗號分隔),定義要從結果中排除的特定文字。

    如果文字符合規則運算式模式,但其中包含其中一個忽略單字,則 Macie 會從結果中排除出現。每個忽略單字可以包含 4–90 個 UTF-8 字元。忽略單詞需區分大小寫。

  9. 針對最大相符距離,選擇性地輸入關鍵字結尾與符合規則運算式模式的文字結尾之間可存在的字元數上限。

    Macie 只有在文字符合規則運算式模式,且文字位於完整關鍵字的這個距離內時,才會在結果中出現 。距離可以是 1–300 個字元。預設距離為 50 個字元。

  10. 針對嚴重性,選擇如何判斷自訂資料識別符產生的敏感資料調查結果嚴重性:

    • 若要自動將中等嚴重性指派給所有調查結果,請針對任意數量的相符項目選擇使用中等嚴重性 (預設)。使用此選項時,如果受影響的 S3 物件包含一或多個符合偵測條件的文字出現次數,Macie 會自動將媒體嚴重性指派給調查結果。

    • 若要根據您指定的出現次數閾值指派嚴重性,請選擇使用自訂設定來判斷嚴重性。然後使用發生閾值嚴重性層級選項,指定 S3 物件中必須存在的相符項目數量下限,以產生具有所選嚴重性的問題清單。

      您可以指定最多三個出現閾值,Macie 支援的每個嚴重性等級各一個閾值: (最不嚴重)、 (最嚴重)。如果您指定多個,則閾值必須依嚴重性遞增,從。如果 S3 物件包含的次數少於最低閾值,Macie 不會建立問題清單。

  11. (選用) 針對標籤,選擇新增標籤,然後輸入最多 50 個要指派給自訂資料識別符的標籤。

    標籤 是您定義並指派給特定資源類型的標籤 AWS 。每個標籤都是由必要的標籤索引鍵和選用的標籤值所組成。標籤可協助您以不同方式識別、分類和管理資源,例如透過用途、擁有者、環境或其他條件。如需詳細資訊,請參閱 標記 Macie 資源

  12. (選用) 針對評估,在範例資料方塊中輸入最多 1,000 個字元,然後選擇測試以測試偵測條件。Macie 會評估範例資料,並報告符合條件的文字出現次數。您可以重複此步驟任意次數,以精簡和最佳化條件。

    注意

    我們強烈建議您使用範例資料來測試和精簡偵測條件。由於敏感資料探索任務會使用自訂資料識別符,因此您無法在建立自訂資料識別符之後變更自訂資料識別符。這有助於確保您擁有敏感資料調查結果和探索結果的不可變歷程記錄。

    由於 Macie 在處理結構化記錄時套用其他邏輯,因此評估方塊傳回的比對計數在某些情況下可能會與任務產生的結果不同。

  13. 完成後,請選擇提交

Macie 會測試設定,並驗證是否可以編譯 regex。如果設定或 regex 發生問題,Macie 會顯示描述問題的錯誤。解決任何問題後,您可以儲存自訂資料識別符。

API

若要以程式設計方式建立自訂資料識別符,請使用 Amazon Macie API 的 CreateCustomDataIdentifier 操作。或者,如果您使用的是 AWS Command Line Interface (AWS CLI),請執行 create-custom-data-identifier 命令。

注意

建立自訂資料識別符之前,強烈建議您使用範例資料來測試和精簡其偵測條件。由於敏感資料探索任務會使用自訂資料識別符,因此您無法在建立自訂資料識別符之後變更自訂資料識別符。這有助於確保您擁有敏感資料調查結果和探索結果的不可變歷程記錄。

若要以程式設計方式測試條件,您可以使用 Amazon Macie API 的 TestCustomDataIdentifier 操作。此操作提供使用偵測條件評估範例資料的環境。如果您使用的是 AWS CLI,您可以執行 test-custom-data-identifier 命令來測試條件。

當您準備好建立自訂資料識別符時,請使用下列參數來定義其偵測條件:

  • regex – 指定規則表達式 (regex),定義要比對的文字模式。regex 最多可包含 512 個字元。

    Macie 支援 Perl 相容規則表達式 (PCRE) 程式庫提供的模式語法子集。如需其他詳細資訊和秘訣,請參閱自訂資料識別符的偵測條件

  • keywords – 選擇性地指定 1-50 個字元序列 (關鍵字),該序列必須接近符合規則運算式模式的文字。

    Macie 只有在文字符合規則運算式模式,且文字位於其中一個關鍵字的最大相符距離內時,才會在結果中出現 。每個關鍵字可以包含 3–90 個 UTF-8 字元。關鍵字不區分大小寫。

  • maximumMatchDistance – 選擇性地指定關鍵字結尾與符合規則運算式模式的文字結尾之間可存在的字元數上限。如果您使用的是 AWS CLI,請使用 maximum-match-distance 參數來指定此值。

    Macie 只有在文字符合規則運算式模式,且文字位於完整關鍵字的這個距離內時,才會在結果中出現 。距離可以是 1–300 個字元。預設距離為 50 個字元。

  • ignoreWords – 選擇性地指定 1-10 個字元序列 (忽略單字) 以從結果中排除。如果您使用的是 AWS CLI,請使用 ignore-words 參數來指定這些字元序列。

    如果文字符合規則運算式模式,但其中包含其中一個忽略單字,則 Macie 會從結果中排除出現。每個忽略單字可以包含 4–90 個 UTF-8 字元。忽略單詞需區分大小寫。

若要指定自訂資料識別符產生的敏感資料調查結果的嚴重性,請使用 severityLevels 參數,或者,如果您使用的是 AWS CLI參數severity-levels

  • 若要自動將MEDIUM嚴重性指派給所有調查結果,請省略此參數。Macie 接著會使用預設設定。根據預設,如果受影響的 S3 物件包含一或多個符合偵測條件的文字出現次數,Macie 會將MEDIUM嚴重性指派給問題清單。

  • 若要根據您指定的出現閾值指派嚴重性,請指定 S3 物件中必須存在的相符項目數量下限,以產生具有指定嚴重性的問題清單。

    您可以指定最多三個出現閾值,Macie 支援的每個嚴重性等級各一個閾值: LOW(最不嚴重)MEDIUM、 或 HIGH(最嚴重)。如果您指定多個,則閾值必須依嚴重性遞增,從 移至 LOW HIGH。如果 S3 物件包含的次數少於最低閾值,Macie 不會建立問題清單。

使用其他參數來指定自訂資料識別符的名稱和其他設定,例如標籤。避免在這些設定中包含敏感資料。根據允許在 Macie 中執行的動作,您帳戶的其他使用者可能可以存取這些值。

當您提交請求時,Macie 會測試設定並驗證它是否可以編譯 regex。如果設定或 regex 發生問題,請求會失敗,Macie 會傳回說明問題的訊息。如果請求成功,您會收到類似以下的輸出:

{ "customDataIdentifierId": "393950aa-82ea-4bdc-8f7b-e5be3example" }

其中 customDataIdentifierId會指定所建立自訂資料識別符的唯一識別符 (ID)。

若要後續擷取和檢閱自訂資料識別符的設定,請使用 GetCustomDataIdentifier 操作,或者,如果您使用的是 AWS CLI,請執行 get-custom-data-identifier 命令。針對 id 參數,指定自訂資料識別符的 ID。

下列範例示範如何使用 AWS CLI 來建立自訂資料識別符。這些範例會建立自訂資料識別符,旨在偵測使用特定語法且在指定關鍵字附近的員工 IDs。這些範例也會為識別符產生的調查結果定義自訂嚴重性設定。

此範例已針對 Linux、macOS 或 Unix 格式化,並使用反斜線 (\) 行接續字元來改善可讀性。

$ aws macie2 create-custom-data-identifier \ --name "EmployeeIDs" \ --regex "[A-Z]-\d{8}" \ --keywords '["employee","employee ID"]' \ --maximum-match-distance 20 \ --severity-levels '[{"occurrencesThreshold":1,"severity":"LOW"},{"occurrencesThreshold":50,"severity":"MEDIUM"},{"occurrencesThreshold":100,"severity":"HIGH"}]' \ --description "Detects employee IDs in proximity of a keyword." \ --tags '{"Stack":"Production"}'

此範例已針對 Microsoft Windows 進行格式化,並使用八進制 (^) 換行字元來改善可讀性。

C:\> aws macie2 create-custom-data-identifier ^ --name "EmployeeIDs" ^ --regex "[A-Z]-\d{8}" ^ --keywords "[\"employee\",\"employee ID\"]" ^ --maximum-match-distance 20 ^ --severity-levels "[{\"occurrencesThreshold\":1,\"severity\":\"LOW\"},{\"occurrencesThreshold\":50,\"severity\":\"MEDIUM\"},{\"occurrencesThreshold\":100,\"severity\":\"HIGH\"}]" ^ --description "Detects employee IDs in proximity of a keyword." ^ --tags={\"Stack\":\"Production\"}

其中:

  • EmployeeIDs 是自訂資料識別符的名稱。

  • [A-Z]-\d{8} 是要比對的文字模式的 regex。

  • employeeemployee ID是關鍵字,必須接近符合 regex 模式的文字。

  • 20 是關鍵字結尾與符合規則運算式模式的文字結尾之間可存在的最大字元數。

  • description 指定自訂資料識別符的簡短描述。

  • severity-levels 針對自訂資料識別符產生的調查結果嚴重性,定義自訂出現閾值:LOW1-49 次出現;MEDIUM50-99 次出現;以及 HIGH 100 次或更多次出現。

  • Stack 是要指派給自訂資料識別符之標籤的標籤索引鍵。 Production是指定標籤索引鍵的標籤值。

建立自訂資料識別符後,您可以建立和設定敏感資料探索任務來使用它,或將其新增至您的設定,以進行自動敏感資料探索