Amazon Fraud Detector は、2025 年 11 月 7 日をもって新規顧客に公開されなくなりました。Amazon Fraud Detector と同様の機能については、Amazon SageMaker、AutoGluon、および を参照してください AWS WAF。

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# イベントデータセット
<a name="create-event-dataset"></a>

イベントデータセットは、会社の過去の不正データです。このデータを Amazon Fraud Detector に提供して、不正検出モデルを作成します。

 Amazon Fraud Detector は、機械学習モデルを使用して不正予測を生成します。各モデルは、モデルタイプを使用してトレーニングします。モデルタイプは、モデルのトレーニングに使用されるアルゴリズムと変換を指定します。モデルトレーニングとは、ユーザーが提供するデータセットを使用して、不正イベントを予測できるモデルを作成するプロセスです。詳細については、「[Amazon Fraud Detector の仕組み](https://docs.aws.amazon.com//frauddetector/latest/ug/how-frauddetector-works.html)」を参照してください。

不正検出モデルの作成に使用されるデータセットは、イベントの詳細を提供します。イベントとは、不正リスクについて評価の対象となるビジネス活動です。例えば、アカウント登録がイベントの例として挙げられます。アカウント登録イベントに関連付けられているデータは、イベントデータセットにすることができます。Amazon Fraud Detector は、このデータセットを使用してアカウント登録の不正行為を評価します。

モデルを作成するためにデータセットを Amazon Fraud Detector に提供する前に、モデルを作成するための目標を必ず定義してください。また、モデルの使用方法を決定し、特定の要件に基づいてモデルが実行されているかどうかを評価するためのメトリクスを定義する必要があります。

例えば、アカウント登録の不正を評価する不正検出モデルを作成する目標は、次のようになります。
+ 正当な登録を自動承認すること。
+ 後で調査するために不正な登録をキャプチャすること。

目標を決めたら、次のステップはモデルの使用方法を決定することです。不正検出モデルを使用して登録不正を評価する例をいくつか次に示します。
+ 各アカウント登録をリアルタイムで不正検出する場合。
+ すべてのアカウント登録を 1 時間ごとにオフラインで評価する場合。

モデルのパフォーマンスを測定するために使用できるメトリクスの例を次に示します。
+ 本番環境において現在のベースラインよりも一貫して優れたパフォーマンスを発揮します。
+ Y% 偽陽性率で X% の不正登録をキャプチャします。
+ 不正である自動承認登録の最大 5% を受け入れます。

## イベントデータセット構造
<a name="event-dataset-structure"></a>

Amazon Fraud Detector では、UTF-8 形式のカンマ区切り値 (CSV) を使用してイベントデータセットをテキストファイルに提供する必要があります。CSV データセットファイルの最初の行には、ファイルヘッダーが含まれている必要があります。ファイルヘッダーは、イベントメタデータと、イベントに関連付けられている各データ要素を記述するイベント変数で構成されています。ヘッダーにはイベントデータが続きます。各行は、1 つのイベントのデータ要素で構成されます。
+ **イベントメタデータ** - イベントに関する情報を提供します。たとえば、EVENT\$1TIMESTAMP は、イベントが発生した時刻を指定するイベントメタデータです。ビジネスユースケースと不正検出モデルの作成とトレーニングに使用されるモデルタイプに応じて、Amazon Fraud Detector では特定のイベントメタデータを提供する必要があります。CSV ファイルヘッダーでイベントメタデータを指定するときは、Amazon Fraud Detector で指定されたものと同じイベントメタデータ名を使用し、大文字のみを使用します。
+ **イベント変数** - 不正検出モデルの作成とトレーニングに使用するイベントに固有のデータ要素を表します。ビジネスユースケースと不正検出モデルの作成とトレーニングに使用されるモデルタイプによっては、Amazon Fraud Detector が特定のイベント変数の提供を要求または推奨する場合があります。オプションで、モデルのトレーニングに含めるイベントの他のイベント変数を指定することもできます。オンライン登録イベントのイベント変数の例としては、E メールアドレス、IP アドレス、電話番号などがあります。CSV ファイルヘッダーでイベント変数名を指定する場合は、任意の変数名を使用し、小文字のみを使用します。
+ **イベントデータ** - 実際のイベントから収集されたデータを表します。CSV ファイルでは、ファイルヘッダーの後の各行は、単一のイベントのデータ要素で構成されます。たとえば、オンライン登録イベントデータファイルでは、各行に 1 つの登録のデータが含まれます。行内の各データ要素は、対応するイベントメタデータまたはイベント変数と一致する必要があります。

アカウント登録イベントのデータを含む CSV ファイルの例を次に示します。ヘッダー行には、大文字のイベントメタデータと、小文字のイベント変数、それに続くイベントデータの両方が含まれます。データセット内の各行には、1 つのアカウント登録に関連付けられたデータ要素が含まれ、各データ要素はヘッダーに対応しています。

![\[CSV file showing event metadata and variables with sample data for account registration events.\]](http://docs.aws.amazon.com/ja_jp/frauddetector/latest/ug/images/SampleEventDataset.png)


## データモデルエクスプローラーを使用してイベントデータセットの要件を取得する
<a name="prepare-event-dataset"></a>

モデルの作成に選択したモデルタイプは、データセットの要件を定義します。Amazon Fraud Detector は、指定したデータセットを使用して不正検出モデルを作成およびトレーニングします。Amazon Fraud Detector がモデルの作成を開始する前に、データセットがサイズ、形式、その他の要件を満たしているかどうかを確認します。データセットが要件を満たしていない場合、モデルの作成とトレーニングは失敗します。**データモデルエクスプローラー**を使用して、ビジネスユースケースに使用するモデルタイプを特定し、特定されたモデルタイプのデータセット要件に関するインサイトを得ることができます。

### データモデルエクスプローラー
<a name="data-models-explorer"></a>

**データモデルエクスプローラー**は、Amazon Fraud Detector コンソールのツールで、ビジネスユースケースを Amazon Fraud Detector でサポートされているモデルタイプに合わせて調整します。データモデルエクスプローラーは、Amazon Fraud Detector が不正検出モデルを作成するために必要なデータ要素に関するインサイトも提供します。イベントデータセットの準備を開始する前に、データモデルエクスプローラーを使用して、Amazon Fraud Detector がビジネス用途に推奨するモデルタイプを把握し、データセットの作成に必要な必須データ要素、推奨データ要素、オプションデータ要素のリストを表示します。

**データモデルエクスプローラーを使用するには、**

1. [AWS マネジメントコンソール](https://console.aws.amazon.com/)を開き、アカウントにサインインします。Amazon Fraud Detector に移動します。

1. 左側のナビゲーションペインで、**データモデルエクスプローラー**を選択します。

1. **データモデルエクスプローラー**ページで、**ビジネスユースケース**で、不正リスクを評価するビジネスユースケースを選択します。

1. Amazon Fraud Detector には、ビジネスユースケースに一致する推奨モデルタイプが表示されます。モデルタイプは、Amazon Fraud Detector が不正検出モデルのトレーニングに使用するアルゴリズム、エンリッチメント、変換を定義します。

   推奨されるモデルタイプを書き留めます。これは、後でモデルを作成するときに必要になります。
**注記**  
ビジネスユースケースが見つからない場合は、説明の **reach us** リンクを使用して、ビジネスユースケースの詳細を提供します。ビジネスユースケースの不正検出モデルを作成するために使用するモデルタイプをお勧めします。

1. **データモデルインサイト**ペインは、ビジネスユースケースの不正検出モデルを作成およびトレーニングするために必要な必須、推奨、およびオプションのデータ要素に関するインサイトを提供します。インサイトペインの情報を使用して、イベントデータを収集し、データセットを作成します。

## イベントデータの収集
<a name="gather-event-data"></a>

イベントデータを収集することは、モデルを作成する上で重要なステップです。これは、不正予測におけるモデルのパフォーマンスが、データセットの品質に依存するためです。イベントデータの収集を開始するときは、Data **models explorer がデータセットを作成するために**提供したデータ要素のリストに注意してください。必須データ (イベントメタデータ) をすべて収集し、モデル作成の目標に基づいて、含める推奨データ要素とオプションデータ要素 (イベント変数) を決定する必要があります。また、含めるイベント変数の形式とデータセットの合計サイズを決定することも重要です。

**イベントデータセットの品質**

モデルの高品質データセットを収集するには、以下をお勧めします。
+ **成熟したデータを収集する - **最新のデータを使用すると、最新の不正パターンを特定するのに役立ちます。ただし、不正ユースケースを検出するには、データを成熟させます。成熟期間はビジネスによって異なり、2 週間から 3 か月かかる場合もあります。例えば、イベントにクレジットカード取引が含まれる場合、データの満期は、クレジットカードのチャージバック期間、または調査者が決定するのに要した時間によって決まる場合があります。

  モデルのトレーニングに使用されるデータセットが、ビジネスに合わせて成熟するのに十分な時間があることを確認します。
+ **データ分布が著しくドリフトしないようにする - **Amazon Fraud Detector モデルトレーニングプロセスは、EVENT\$1TIMESTAMP に基づいてデータセットのサンプル作成とパーティショニングに行います。例えば、データセットが過去 6 か月から引き出された不正イベントで構成され、最後の月の正当なイベントのみが含まれる場合、データ分布はドリフトして不安定になると考えられます。不安定なデータセットは、モデルのパフォーマンス評価でバイアスを引き起こす可能性があります。データ分布が大幅にドリフトしていることがわかった場合は、現在のデータ分布と同様のデータを収集してデータセットのバランスをとることを検討してください。
+ **データセットがモデルを実装/テストするユースケースを代表するものであることを確認します - **そうしないと、推定されるパフォーマンスに偏りが生じる可能性があります。モデルを使用してすべての社内申請者を自動的に拒否しているが、モデルは以前に承認された履歴データ/ラベルを含むデータセットを使用してトレーニングされているとします。その場合、評価は却下された申請者の表現を持たないデータセットに基づいているため、モデルの評価が不正確になる可能性があります。

**イベントデータ形式**

Amazon Fraud Detector は、モデルトレーニングプロセスの一環として、ほとんどのデータを必要な形式に変換します。ただし、Amazon Fraud Detector がデータセットを検証する際に問題を回避するのに役立つデータを提供するために簡単に使用できる標準形式がいくつかあります。次の表は、推奨されるイベントメタデータを提供するための形式に関するガイダンスを示しています。

**注記**  
CSV ファイルを作成するときは、以下に示すイベントメタデータ名を大文字で入力してください。


| メタデータ名 | 形式 | 必須 | 
| --- | --- | --- | 
|  EVENT\$1ID  |  指定する場合は、次の要件を満たしている必要があります。 [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/frauddetector/latest/ug/create-event-dataset.html)  | モデルのタイプによる | 
|  EVENT\$1TIMESTAMP  |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/frauddetector/latest/ug/create-event-dataset.html)  | はい | 
|  ENTITY\$1ID  |  [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/ja_jp/frauddetector/latest/ug/create-event-dataset.html)  | モデルのタイプによる | 
|  ENTITY\$1TYPE  | 任意の文字列を使用できます。 |  モデルのタイプによる  | 
|  EVENT\$1LABEL  |  「fraud」、「legit」、「1」、「0」など、任意のラベルを使用できます。  |  LABEL\$1TIMESTAMP が含まれている場合は必須です  | 
|  LABEL\$1TIMESTAMP  |  タイムスタンプ形式に従う必要があります。  |  EVENT\$1LABEL が含まれている場合は必須です  | 

イベント変数の詳細については、[「変数](https://docs.aws.amazon.com//frauddetector/latest/ug/variables.html)」を参照してください。

**重要**  
Account Takeover Insights (ATI) モデルを作成する場合は、データの準備と選択の詳細については、[データの準備](account-takeover-insights.md#preparing-training-data-ATI)「」を参照してください。

**NULL または欠損値**

EVENT\$1TIMESTAMP および EVENT\$1LABEL 変数には、NULL または欠損値を含めることはできません。他の変数には NULL または欠損値を指定できます。ただし、これらの変数には少数の NULL のみを使用することをお勧めします。Amazon Fraud Detector は、イベント変数の NULL または欠損値が多すぎると判断した場合、モデルから変数を自動的に省略します。

**最小変数**

モデルを作成する場合、データセットには、必要なイベントメタデータに加えて、少なくとも 2 つのイベント変数を含める必要があります。2 つのイベント変数は、検証チェックに合格する必要があります。

**イベントデータセットのサイズ**

必須

データセットは、モデルトレーニングを成功させるために以下の基本要件を満たしている必要があります。
+ 少なくとも 100 個のイベントからのデータ。
+ データセットには、不正に分類されるイベント (行) が少なくとも 50 個含まれている必要があります。

推奨

モデルトレーニングを成功させ、モデルのパフォーマンスを向上させるには、データセットに以下を含めることをお勧めします。
+ 最低 3 週間の履歴データを含めますが、最大 6 か月のデータを含めます。
+ 合計 10K 件以上のイベントデータを含めます。
+ 不正に分類されるイベント (行) を少なくとも 400 件、正当に分類されるイベント (行) を少なくとも 400 件含めます。
+ モデルタイプに ENTITY\$1ID が必要な場合は、100 を超える一意のエンティティを含めます。

## データセットの検証
<a name="dataset-validation"></a>

Amazon Fraud Detector は、モデルの作成を開始する前に、モデルのトレーニングのためにデータセットに含まれる変数がサイズ、形式、およびその他の要件を満たしているかどうかをチェックします。データセットが検証に合格しない場合、モデルは作成されません。モデルを作成する前に、まず検証に合格しなかった変数を修正する必要があります。Amazon Fraud Detector は、モデルのトレーニングを開始する前に、データセットの問題を特定して修正するために使用できる*データプロファイラー*を提供します。

**データプロファイラー**

Amazon Fraud Detector は、モデルトレーニングのためにデータをプロファイリングおよび準備するためのオープンソースツールを提供します。この自動データプロファイラーは、一般的なデータ準備エラーを回避し、モデルのパフォーマンスに悪影響を与える可能性のある変数タイプがマップされていないかなど、潜在的な問題を特定するのに役立ちます。プロファイラーは、変数統計、ラベル分布、カテゴリ分析、数値分析、変数とラベルの相関など、データセットの直感的で包括的なレポートを生成します。変数タイプに関するガイダンスと、データセットを Amazon Fraud Detector が必要とする形式に変換するオプションを提供します。

**データプロファイラーの使用**

自動データプロファイラーは AWS CloudFormation スタックで構築されており、数回クリックするだけで簡単に起動できます。すべてのコードは [GitHub](https://github.com/aws-samples/aws-fraud-detector-samples) で利用できます。データプロファイラーの使用方法については、「[Amazon Fraud Detector の自動データプロファイラーでモデルを迅速にトレーニングする](https://aws.amazon.com/blogs/machine-learning/train-models-faster-with-an-automated-data-profiler-for-amazon-fraud-detector/)」のブログ記事の指示に従ってください。

**イベントデータセットの一般的なエラー**

イベントデータセットの検証時に Amazon Fraud Detector で発生する一般的な問題のいくつかを次に示します。データプロファイラーを実行した後、モデルを作成する前に、このリストを使用してデータセットのエラーをチェックします。
+ CSV ファイルは UTF-8 形式ではない。
+ データセット内のイベント数が 100 未満です。
+ 不正または正当として識別されるイベントの数は 50 未満です。
+ 不正とされる一意のエンティティの数が 100 未満である。
+ EVENT\$1TIMESTAMP の値の 0.1% 以上には、NULL、またはサポートされている日付/タイムスタンプ形式以外の値が含まれている。
+ EVENT\$1LABEL の値の 1% 以上に、NULL、イベントタイプで定義されている値以外の値が含まれている。
+ モデルトレーニングに使用できる変数が 2 つ未満である。

## データセットストレージ
<a name="dataset-storage"></a>

データセットを収集したら、データセットを Amazon Fraud Detector を使用して内部に保存するか、Amazon Simple Storage Service (Amazon S3) を使用して外部に保存します。不正予測の生成に使用するモデルに基づいて、データセットの保存場所を選択することをお勧めします。モデルタイプの詳細については、[「モデルタイプを選択する](https://docs.aws.amazon.com//frauddetector/latest/ug/choosing-model-type.html)」を参照してください。データセットの保存の詳細については、「」を参照してください[イベントデータストレージ](event-data-storage.md)。