カスタムデータ識別子の作成

カスタムデータ識別子は、機密データを検出するために定義する基準のセットです。各カスタムデータ識別子を作成するときに、S3 オブジェクト内で一致するテキストパターンを定義する正規表現 (regex) を指定します。また、結果を絞り込む文字シーケンスと近接ルールを指定することもできます。文字シーケンスは、正規表現に一致するテキストに近接する必要がある単語またはフレーズである「キーワード」、または結果から除外する単語またはフレーズである「無視する単語」になります。カスタムデータ識別子を使用して、Amazon Macie が提供するマネージドデータ識別子を補足し、組織の特定のシナリオ、知的財産、または専有データを反映する機密データを検出できます。

例えば、多くの企業は、従業員 ID の特定の構文を持っています。そのような構文の 1 つは、従業員がフルタイム (F) またはパートタイム (P) の従業員であるかを示す大文字で、その後にハイフン (-)、その後に従業員を識別する 8 桁のシーケンスが続きます。例: フルタイム従業員の場合は F–12345678、パートタイム従業員の場合は P–87654321。この構文を使用する従業員 IDs を検出するには、という正規表現を指定するカスタムデータ識別子を作成できます[A-Z]-\d{8}。分析を絞り込み、誤検出を回避するために、キーワード (employee と employee ID) と最大一致距離 (20 文字) を使用するように識別子を設定することもできます。これらの基準では、テキストがキーワード従業員または従業員 ID の後に発生し、すべてのテキストがそれらのキーワードの 1 つから 20 文字以内に発生した場合、結果には正規表現に一致するテキストが含まれます。

キーワードが機密データの検索や誤検出の回避にどのように役立つかについては、以下の動画をご覧ください。

検出基準に加えて、カスタムデータ識別子が生成する検出結果のカスタム重要度設定を任意で指定できます。重要度は、識別子の検出基準に一致するテキストの出現回数に基づいて指定できます。これらの設定を指定しない場合、Macie は識別子が生成するすべての検出結果に中程度の重要度を自動的に割り当てます。重要度は、識別子の検出基準に一致するテキストの出現回数によって変化しません。

これらの情報およびその他の設定の詳細については、「カスタムデータ識別子の設定オプション」を参照してください。

カスタムデータ識別子を作成するには

Amazon Macie コンソールまたは Amazon Macie API を使用して、カスタムデータ識別子を作成できます。

Console

Amazon Macie コンソールを使用してカスタムデータ識別子を作成するには、次のステップに従います。

カスタムデータ識別子を作成するには

Amazon Macie コンソール (https://console.aws.amazon.com/macie/) を開きます。
ナビゲーションペインの設定の下で、カスタムデータ識別子 を選択します。
作成を選択します。
名前では、カスタムデータ識別子の名前を入力します。名前には最大 128 文字を含めることができます。
[説明] では、カスタムデータ識別子の簡単な説明を任意で入力します。説明には最大 512 文字を含めることができます。

注記
カスタムデータ識別子の名前または説明に機密データを含めないでください。Macie で実行できるアクションによっては、アカウントの他のユーザーが名前や説明にアクセスできる場合があります。
正規表現 では、一致するテキストパターンを定義する正規表現 (正規表現) を入力します。正規表現には最大 512 文字を含めることができます。

Macie は、Perl 互換正規表現 (PCRE) ライブラリによって提供されるパターン構文のサブセットをサポートしています。詳細とヒントについては、「カスタムデータ識別子の検出基準」を参照してください。
[キーワード] では、一致する特定のテキストを定義する 50 文字のシーケンス (カンマ区切り) を入力します。

Macie は、テキストが正規表現パターンと一致し、テキストがこれらのキーワードのいずれかの最大一致距離内にある場合にのみ、結果に出現を含めます。各キーワードには、3～90 の UTF-8 文字を含めることができます。キーワードでは、大文字と小文字が区別されません。
単語を無視する場合は、オプションで、結果から除外する特定のテキストを定義する最大 10 文字のシーケンス (カンマで区切る) を入力します。

Macie は、テキストが正規表現パターンと一致するが、これらの無視ワードのいずれかが含まれている場合、結果から出現を除外します。無視する単語には、4～90 の UTF-8 文字を含めることができます。無視する単語では、大文字と小文字が区別されます。
[最大一致距離] では、正規表現に一致するテキストとキーワードの間に存在できる文字の最大数を入力します。

Macie は、テキストが正規表現パターンと一致し、テキストが完全なキーワードからこの距離内にある場合にのみ、結果に出現を含めます。距離は 1〜300 文字です。デフォルトの距離は 50 文字です。
[重要度] の下で、カスタムデータ識別子が生成する機密データの検出結果の重要度を特定する方法を選択します。
- 中重要度をすべての結果に自動的に割り当てるには、任意の数の一致に対して中重要度を使用する (デフォルト) を選択します。このオプションでは、影響を受ける S3 オブジェクトに検出基準と一致するテキストが 1 つ以上含まれている場合、Macie は検出結果に自動的に重大度中を割り当てます。
- 指定したカスタム頻度しきい値に基づいて重要度を割り当てるには、カスタム設定を使用して重要度を判断するを選択します。次に、頻度しきい値 および 重要度レベル オプションを使用して、選択した重要度で結果を生成するために S3 オブジェクトに存在する必要がある一致の最小数を指定します。
  
  Macie がサポートする重大度レベルごとに 1 つずつ、最大 3 つの頻度しきい値を指定できます: [低] (最小の重要度)、[中]、または [高] (最大の重要度)。1 を超える値を指定する場合、しきい値は重要度で昇順 (低から高に移動) である必要があります。S3 オブジェクトに含まれる出現回数が最低しきい値よりも少ない場合、Macie は検出結果を作成しません。
(オプショナル) タグで タグを追加 を選択し、カスタムデータ識別子に割り当てるタグを 50 個まで入力します。

タグは、特定のタイプの AWS リソースを定義して割り当てるラベルです。各タグは、必要なタグキーとオプションのタグ値で設定されています。タグを使用することで、目的、所有者、環境、その他の条件など、さまざまな方法でリソースを分類および管理できます。詳細については、Macie リソースにタグ付けするを参照してください。
(オプショナル) 評価では、サンプルデータ ボックスに最大 1,000 文字を入力し、テスト を選択して検出条件をテストします。Macie はサンプルデータを評価し、基準に一致するテキストの出現回数をレポートします。基準を調整して最適化するために、このステップを何回でも繰り返すことができます。

注記
サンプルデータを使用して検出基準をテストおよび改良することを強くお勧めします。カスタムデータ識別子は機密データ検出ジョブで使用されるため、作成後にカスタムデータ識別子を変更することはできません。これにより、機密データの検出結果と結果の不変の履歴を確保できます。
Macie は構造化レコードを処理するときに追加のロジックを適用するため、評価ボックスによって返される一致数は、ジョブによって生成される結果とは異なる場合があります。
完了したら、送信を選択します。

Macie は設定をテストし、正規表現をコンパイルできることを確認します。設定または正規表現に問題がある場合、Macie は問題を説明するエラーを表示します。問題を解決したら、カスタムデータ識別子を保存できます。

API

カスタムデータ識別子をプログラムで作成するには、Amazon Macie APIの CreateCustomDataIdentifier オペレーションを使用します。または、 AWS Command Line Interface (AWS CLI) を使用している場合は、create-custom-data-identifier コマンドを実行します。

注記

カスタムデータ識別子を作成する前に、サンプルデータを使用して検出基準をテストおよび改良することを強くお勧めします。カスタムデータ識別子は機密データ検出ジョブで使用されるため、作成後にカスタムデータ識別子を変更することはできません。これにより、機密データの検出結果と結果の不変の履歴を確保できます。

プログラムで基準をテストするには、Amazon Macie API の TestCustomDataIdentifier オペレーションを使用できます。このオペレーションは、検出基準を使用してサンプルデータを評価する環境を提供します。を使用している場合は AWS CLI、test-custom-data-identifier コマンドを実行して基準をテストできます。

カスタムデータ識別子を作成する準備ができたら、次のパラメータを使用して検出基準を定義します。

regex – 一致するテキストパターンを定義する正規表現 (regex) を指定します。正規表現には最大 512 文字を含めることができます。

Macie は、Perl 互換正規表現 (PCRE) ライブラリによって提供されるパターン構文のサブセットをサポートしています。詳細とヒントについては、「カスタムデータ識別子の検出基準」を参照してください。
keywords – 必要に応じて、正規表現パターンに一致するテキストの近くにある必要がある 1～50 文字のシーケンス (キーワード) を指定します。

Macie は、テキストが正規表現パターンと一致し、テキストがこれらのキーワードのいずれかの最大一致距離内にある場合にのみ、結果に出現を含めます。各キーワードには、3～90 の UTF-8 文字を含めることができます。キーワードでは、大文字と小文字が区別されません。
maximumMatchDistance – オプションで、キーワードの末尾と正規表現パターンに一致するテキストの末尾の間に存在できる最大文字数を指定します。を使用している場合は AWS CLI、 maximum-match-distanceパラメータを使用してこの値を指定します。

Macie は、テキストが正規表現パターンと一致し、テキストが完全なキーワードからこの距離内にある場合にのみ、結果に出現を含めます。距離は 1〜300 文字です。デフォルトの距離は 50 文字です。
ignoreWords – オプションで、結果から除外する 1～10 文字のシーケンス (単語を無視) を指定します。を使用している場合は AWS CLI、 ignore-wordsパラメータを使用してこれらの文字シーケンスを指定します。

Macie は、テキストが正規表現パターンと一致するが、これらの無視ワードのいずれかが含まれている場合、結果から出現を除外します。無視する単語には、4～90 の UTF-8 文字を含めることができます。無視する単語では、大文字と小文字が区別されます。

カスタムデータ識別子が生成する機密データの検出結果の重要度を指定するには、 severityLevelsパラメータを使用するか、を使用している場合は AWS CLIseverity-levelsパラメータを使用します。

すべての結果にMEDIUM重要度を自動的に割り当てるには、このパラメータを省略します。その後、Macie はデフォルト設定を使用します。デフォルトでは、影響を受ける S3 オブジェクトに検出基準に一致するテキストの出現が 1 つ以上含まれている場合、Macie は検出結果にMEDIUM重要度を割り当てます。
指定した出現しきい値に基づいて重要度を割り当てるには、指定した重要度の結果を生成するために S3 オブジェクトに存在する必要がある一致の最小数を指定します。

Macie がサポートする重要度レベルごとに 1 つずつ、最大 3 つの出現しきい値を指定できます: LOW (最も重要度が低い）、MEDIUM、または HIGH (最も重要度が高い）。複数のを指定する場合、しきい値は重要度別に昇順で、から LOW に移行する必要がありますHIGH。S3 オブジェクトに含まれる出現回数が最低しきい値よりも少ない場合、Macie は検出結果を作成しません。

追加のパラメータを使用して、カスタムデータ識別子の名前とタグなどのその他の設定を指定します。これらの設定に機密データを含めないでください。Macie で実行できるアクションによっては、アカウントの他のユーザーがこれらの値にアクセスできる場合があります。

リクエストを送信すると、Macie は設定をテストし、正規表現をコンパイルできることを確認します。設定または正規表現に問題がある場合、リクエストは失敗し、Macie は問題を説明するメッセージを返します。リクエストが成功すると、次のような出力を受け取ります。


{
    "customDataIdentifierId": "393950aa-82ea-4bdc-8f7b-e5be3example"
}

ここで、は、作成されたカスタムデータ識別子の一意の識別子 (ID) customDataIdentifierIdを指定します。

その後、カスタムデータ識別子の設定を取得して確認するには、GetCustomDataIdentifier オペレーションを使用するか、を使用している場合は AWS CLI getget-custom-data-identifier コマンドを実行します。id パラメータには、カスタムデータ識別子の ID を指定します。

次の例は、を使用してカスタムデータ識別子 AWS CLI を作成する方法を示しています。この例では、特定の構文を使用し、指定されたキーワードの近くにある従業員 IDs を検出するように設計されたカスタムデータ識別子を作成します。この例では、識別子が生成する検出結果のカスタム重要度設定も定義します。

この例は Linux、macOS、または Unix 用にフォーマットされており、読みやすさを向上させるためにバックスラッシュ (\) の行継続文字を使用しています。


$ aws macie2 create-custom-data-identifier \
--name "EmployeeIDs" \
--regex "[A-Z]-\d{8}" \
--keywords '["employee","employee ID"]' \
--maximum-match-distance 20 \
--severity-levels '[{"occurrencesThreshold":1,"severity":"LOW"},{"occurrencesThreshold":50,"severity":"MEDIUM"},{"occurrencesThreshold":100,"severity":"HIGH"}]' \
--description "Detects employee IDs in proximity of a keyword." \
--tags '{"Stack":"Production"}'

この例は Microsoft Windows 用にフォーマットされており、読みやすさを向上させるためにキャレット (^) の行継続文字を使用しています。


C:\> aws macie2 create-custom-data-identifier ^
--name "EmployeeIDs" ^
--regex "[A-Z]-\d{8}" ^
--keywords "[\"employee\",\"employee ID\"]" ^
--maximum-match-distance 20 ^
--severity-levels "[{\"occurrencesThreshold\":1,\"severity\":\"LOW\"},{\"occurrencesThreshold\":50,\"severity\":\"MEDIUM\"},{\"occurrencesThreshold\":100,\"severity\":\"HIGH\"}]" ^
--description "Detects employee IDs in proximity of a keyword." ^
--tags={\"Stack\":\"Production\"}

コードの説明は以下のとおりです。

EmployeeIDs はカスタムデータ識別子の名前です。
[A-Z]-\d{8} は、一致するテキストパターンの正規表現です。
employee および employee IDは、正規表現パターンに一致するテキストの近くにある必要があるキーワードです。
20 は、キーワードの末尾と正規表現パターンに一致するテキストの末尾の間に存在できる最大文字数です。
description は、カスタムデータ識別子の簡単な説明を指定します。
severity-levels は、カスタムデータ識別子が生成する検出結果の重要度のカスタム出現しきい値を定義します。1～49 件の出現LOWの場合、50～99 MEDIUM 件の出現の場合、100 件以上の出現HIGHの場合。
Stack は、カスタムデータ識別子に割り当てるタグのタグキーです。 Productionは、指定されたタグキーのタグ値です。

カスタムデータ識別子を作成したら、それを使用するように機密データ検出ジョブを作成および設定したり、機密データ自動検出の設定に追加したりできます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

カスタムデータ識別子の設定オプション

カスタムデータ識別子の削除