自 2025 年 11 月 7 日起,Amazon Fraud Detector 不再向新客戶開放。對於類似 Amazon Fraud Detector 的功能,請探索 Amazon SageMaker、AutoGluon 和 AWS WAF。
本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
事件資料集
事件資料集是貴公司的歷史詐騙資料。您可以將此資料提供給 Amazon Fraud Detector,以建立詐騙偵測模型。
Amazon Fraud Detector 使用機器學習模型來產生詐騙預測。每個模型都是使用模型類型進行訓練。模型類型會指定用於訓練模型的演算法和轉換。模型訓練是使用您提供的資料集來建立可預測詐騙事件的模型的程序。如需詳細資訊,請參閱 Amazon Fraud Detector 的運作方式
用於建立詐騙偵測模型的資料集提供事件的詳細資訊。事件是評估詐騙風險的商業活動。例如,帳戶註冊可以是 事件。與帳戶註冊事件相關聯的資料可以是事件資料集。Amazon Fraud Detector 使用此資料集來評估帳戶註冊詐騙。
將資料集提供給 Amazon Fraud Detector 以建立模型之前,請務必定義建立模型的目標。您也需要決定如何使用模型,並定義指標來評估模型是否根據您的特定需求執行。
例如,您建立評估帳戶註冊詐騙的詐騙偵測模型的目標如下:
自動核准合法註冊。
擷取詐騙註冊以供日後調查。
確定目標後,下一個步驟是決定如何使用模型。使用詐騙偵測模型來評估註冊詐騙的一些範例如下:
針對每個帳戶註冊的即時詐騙偵測。
用於每小時所有帳戶註冊的離線評估。
可用於測量模型效能的指標範例如下:
執行持續優於生產中的目前基準。
使用 Y% 誤報率擷取 X% 詐騙註冊。
接受最多 5% 的詐騙自動核准註冊。
事件資料集結構
Amazon Fraud Detector 要求您使用 UTF-8 格式的逗號分隔值 (CSV),在文字檔案中提供事件資料集。CSV 資料集檔案的第一行必須包含檔案標頭。檔案標頭包含事件中繼資料和事件變數,描述與事件相關聯的每個資料元素。標頭後面接著事件資料。每一行都包含來自單一事件的資料元素。
-
事件中繼資料 - 提供事件的相關資訊。例如,EVENT_TIMESTAMP 是指定事件發生時間的事件中繼資料。視您的業務使用案例和用於建立和訓練詐騙偵測模型的模型類型而定,Amazon Fraud Detector 會要求您提供特定的事件中繼資料。在 CSV 檔案標頭中指定事件中繼資料時,請使用與 Amazon Fraud Detector 指定的相同事件中繼資料名稱,並僅使用大寫字母。
-
事件變數 - 代表事件特有的資料元素,您想要用來建立和訓練詐騙偵測模型。根據您的業務使用案例和用於建立和訓練詐騙偵測模型的模型類型,Amazon Fraud Detector 可能需要或建議您提供特定事件變數。您也可以選擇從事件中提供其他事件變數,以包含在訓練模型中。線上註冊事件的事件變數範例可以是電子郵件地址、IP 地址和電話號碼。在 CSV 檔案標頭中指定事件變數名稱時,請使用您選擇的任何變數名稱,並僅使用小寫字母。
-
事件資料 - 代表從實際事件收集的資料。在您的 CSV 檔案中,檔案標頭後面的每一列都包含來自單一事件的資料元素。例如,在線上註冊事件資料檔案中,每一列都包含來自單一註冊的資料。資料列中的每個資料元素都必須與對應的事件中繼資料或事件變數相符。
以下是 CSV 檔案的範例,其中包含來自帳戶註冊事件的資料。標頭列包含大寫的事件中繼資料和小寫的事件變數,後面接著事件資料。資料集中的每一列都包含與單一帳戶註冊相關聯的資料元素,以及與 標頭對應的每個資料元素。
使用資料模型瀏覽器取得事件資料集需求
您選擇建立模型的模型類型會定義資料集的需求。Amazon Fraud Detector 會使用您提供的資料集來建立和訓練您的詐騙偵測模型。在 Amazon Fraud Detector 開始建立模型之前,它會檢查資料集是否符合大小、格式和其他需求。如果資料集不符合要求,則模型建立和訓練會失敗。您可以使用資料模型總管來識別用於業務使用案例的模型類型,並深入了解已識別模型類型的資料集需求。
資料模型瀏覽器
資料模型總管是 Amazon Fraud Detector 主控台中的工具,可將您的業務使用案例與 Amazon Fraud Detector 支援的模型類型保持一致。資料模型總管也提供 Amazon Fraud Detector 建立詐騙偵測模型所需的資料元素洞察。在您開始準備事件資料集之前,請使用資料模型總管來找出 Amazon Fraud Detector 建議用於業務的模型類型,並查看建立資料集所需的必要、建議和選用資料元素清單。
若要使用資料模型瀏覽器,
-
開啟 AWS 管理主控台
並登入您的帳戶。導覽至 Amazon Fraud Detector。 -
在左側導覽窗格中,選擇資料模型瀏覽器。
-
在資料模型瀏覽器頁面的業務使用案例下,選取您要評估詐騙風險的業務使用案例。
-
Amazon Fraud Detector 會顯示符合您業務使用案例的建議模型類型。模型類型定義 Amazon Fraud Detector 用來訓練詐騙偵測模型的演算法、擴充和轉換。
請記下建議的模型類型。稍後當您建立模型時,將需要此值。
注意
如果您找不到您的商業使用案例,請使用描述中的聯絡我們連結來提供商業使用案例的詳細資訊。我們將建議使用模型類型,為您的業務使用案例建立詐騙偵測模型。
-
資料模型洞察窗格可讓您深入了解為業務使用案例建立和訓練詐騙偵測模型所需的必要、建議和選用資料元素。使用洞見窗格中的資訊來收集事件資料和建立資料集。
收集事件資料
收集事件資料是建立模型的重要步驟。這是因為模型預測詐騙的效能取決於資料集的品質。當您開始收集事件資料時,請記住資料模型瀏覽器提供給您用來建立資料集的資料元素清單。您需要收集所有強制性 (事件中繼資料) 資料,並根據建立模型的目標,決定要包含哪些建議和選用的資料元素 (事件變數)。也請務必決定您要包含的每個事件變數的格式,以及資料集的總大小。
事件資料集品質
若要為您的模型收集高品質資料集,我們建議下列事項:
收集成熟的資料 - 使用最新的資料有助於識別最新的詐騙模式。不過,若要偵測詐騙使用案例,請允許資料成熟。到期期間取決於您的業務,可能需要兩週到三個月的時間。例如,如果您的事件包含信用卡交易,則資料的成熟度可能取決於信用卡的扣款期間或調查人員做出決定所花費的時間。
確保用於訓練模型的資料集有足夠的時間根據您的業務成熟。
確保資料分佈不會大幅偏離 - Amazon Fraud Detector 模型訓練程序範例並根據 EVENT_TIMESTAMP 分割資料集。例如,如果您的資料集包含從過去 6 個月提取的詐騙事件,但只包含最後一個月的合法事件,則資料分佈會被視為偏離和不穩定。不穩定的資料集可能會導致模型效能評估中的偏差。如果您發現資料分佈大幅偏離,請考慮透過收集類似目前資料分佈的資料來平衡資料集。
確保資料集代表實作/測試模型的使用案例 - 否則,估計效能可能會產生偏差。假設您使用模型自動拒絕所有室內申請人,但您的模型已使用具有先前核准之歷史資料/標籤的資料集進行訓練。然後,模型的評估可能不準確,因為評估是以沒有拒絕申請人表示的資料集為基礎。
事件資料格式
Amazon Fraud Detector 會將大部分的資料轉換為必要的格式,作為模型訓練程序的一部分。不過,您可以輕鬆使用一些標準格式來提供資料,有助於避免稍後 Amazon Fraud Detector 驗證資料集時發生問題。下表提供提供提供建議事件中繼資料格式的指引。
注意
當您建立 CSV 檔案時,請務必以大寫字母輸入事件中繼資料名稱,如下所示。
| 中繼資料名稱 | 格式 | 必要 |
|---|---|---|
|
EVENT_ID |
如果提供,則必須符合下列要求:
|
取決於模型類型 |
|
EVENT_TIMESTAMP |
|
是 |
|
ENTITY_ID |
|
取決於模型類型 |
|
ENTITY_TYPE |
您可以使用任何字串 |
取決於模型類型 |
|
EVENT_LABEL |
您可以使用任何標籤,例如「詐騙」、「合法」、「1」或「0」。 |
如果包含 LABEL_TIMESTAMP,則為必要項目 |
|
LABEL_TIMESTAMP |
它必須遵循時間戳記格式。 |
如果包含 EVENT_LABEL,則為必要項目 |
如需事件變數的資訊,請參閱變數。
重要
如果您要建立帳戶接管洞見 (ATI) 模型,請參閱 以取得準備和選取資料準備資料的詳細資訊。
Null 或缺少值
EVENT_TIMESTAMP 和 EVENT_LABEL 變數不得包含任何 null 值或遺失值。您可以為其他變數設定 null 值或缺少值。不過,我們建議您只針對這些變數使用少量 null。如果 Amazon Fraud Detector 判斷事件變數有太多 null 值或遺失值,則會自動從您的模型省略變數。
最小變數
建立模型時,除了所需的事件中繼資料之外,資料集必須包含至少兩個事件變數。兩個事件變數必須通過驗證檢查。
事件資料集大小
必要
您的資料集必須符合下列基本需求,才能成功訓練模型。
-
來自至少 100 個事件的資料。
-
資料集必須包含至少 50 個歸類為詐騙的事件 (資料列)。
建議
我們建議您的資料集包含下列項目,以實現成功的模型訓練和良好的模型效能。
-
包含至少三週的歷史資料,但最多六個月的資料。
-
包含至少 10K個總事件資料。
-
包含至少 400 個分類為詐騙的事件 (列),以及 400 個分類為合法的事件 (列)。
-
如果您的模型類型需要 ENTITY_ID,請包含 100 個以上的唯一實體。
資料集驗證
在 Amazon Fraud Detector 開始建立模型之前,它會檢查資料集中包含用於訓練模型的變數是否符合大小、格式和其他需求。如果資料集未通過驗證,則不會建立模型。您必須先修正未通過驗證的變數,再建立模型。Amazon Fraud Detector 為您提供資料分析器,可在您開始訓練模型之前,用來協助您識別和修正資料集的問題
資料分析器
Amazon Fraud Detector 提供開放原始碼工具,用於分析和準備資料以進行模型訓練。此自動化資料分析器可協助您避免常見的資料準備錯誤,並識別潛在的問題,例如對模型效能造成負面影響的映射錯誤變數類型。分析器會產生直覺且全面的資料集報告,包括變數統計資料、標籤分佈、分類和數值分析,以及變數和標籤相互關聯。它提供變數類型的指導,以及將資料集轉換為 Amazon Fraud Detector 所需格式的選項。
使用資料分析器
自動化資料分析器使用 AWS CloudFormation 堆疊建置,只需按幾下滑鼠,即可輕鬆啟動。Github
常見事件資料集錯誤
以下是 Amazon Fraud Detector 在驗證事件資料集時遇到的一些常見問題。執行資料分析器之後,請在建立模型之前使用此清單來檢查資料集是否有錯誤。
CSV 檔案不是 UTF-8 格式。
資料集中的事件數小於 100。
識別為詐騙或合法的事件數量少於 50 個。
與詐騙事件相關聯的唯一實體數量少於 100。
EVENT_TIMESTAMP 中超過 0.1% 的值包含 null 或支援的日期/時間戳記格式以外的值。
EVENT_LABEL 中超過 1% 的值包含 null 或事件類型中定義值以外的值。
少於兩個變數可用於模型訓練。
資料集儲存
在您收集資料集之後,您可以使用 Amazon Fraud Detector 將資料集存放在內部,或使用 Amazon Simple Storage Service (Amazon S3) 儲存在外部。我們建議您根據用於產生詐騙預測的模型,選擇存放資料集的位置。如需模型類型的詳細資訊,請參閱選擇模型類型。如需存放資料集的詳細資訊,請參閱 事件資料儲存。