Amazon Fraud Detector는 2025년 11월 7일부터 신규 고객에게 더 이상 공개되지 않습니다. Amazon Fraud Detector와 유사한 기능을 알아보려면 Amazon SageMaker, AutoGluon 및를 살펴보세요 AWS WAF.
기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
CSV 파일 생성
Amazon Fraud Detector를 사용하려면 CSV 파일의 첫 번째 행에 열 헤더가 포함되어야 합니다. CSV 파일의 열 헤더는 이벤트 유형에 정의된 변수에 매핑되어야 합니다. 예제 데이터 세트는 섹션을 참조하세요. 예제 데이터 세트 가져오기 및 업로드
Online Fraud Insights 모델에는 최소 2개의 변수와 최대 100개의 변수가 있는 훈련 데이터 세트가 필요합니다. 이벤트 변수 외에도 훈련 데이터 세트에는 다음 헤더가 포함되어야 합니다.
-
EVENT_TIMESTAMP - 이벤트가 발생한 시기를 정의합니다.
-
EVENT_LABEL - 이벤트를 사기성 또는 합법적인 것으로 분류합니다. 열의 값은 이벤트 유형에 정의된 값과 일치해야 합니다.
다음 샘플 CSV 데이터는 온라인 판매자의 과거 등록 이벤트를 나타냅니다.
EVENT_TIMESTAMP,EVENT_LABEL,ip_address,email_address 4/10/2019 11:05,fraud,209.146.137.48,fake_burtonlinda@example.net 12/20/2018 20:04,legit,203.0.112.189,fake_davidbutler@example.org 3/14/2019 10:56,legit,169.255.33.54,fake_shelby76@example.net 1/3/2019 8:38,legit,192.119.44.26,fake_curtis40@example.com 9/25/2019 3:12,legit,192.169.85.29,fake_rmiranda@example.org
참고
CSV 데이터 파일에는 데이터의 일부로 큰따옴표와 쉼표가 포함될 수 있습니다.
해당 이벤트 유형의 단순화된 버전이 아래에 나와 있습니다. 이벤트 변수는 CSV 파일의 헤더에 해당하고의 값은 레이블 목록의 값에 EVENT_LABEL 해당합니다.
( name = 'sample_registration', eventVariables = ['ip_address', 'email_address'], labels = ['legit', 'fraud'], entityTypes = ['sample_customer'] )
이벤트 타임스탬프 형식
이벤트 타임스탬프가 필수 형식인지 확인합니다. 모델 빌드 프로세스의 일환으로 Online Fraud Insights 모델 유형은 이벤트 타임스탬프를 기반으로 데이터를 주문하고 훈련 및 테스트 목적으로 데이터를 분할합니다. 성능을 공정하게 추정하기 위해 모델은 먼저 훈련 데이터 세트를 훈련한 다음 테스트 데이터 세트에서이 모델을 테스트합니다.
Amazon Fraud Detector는 모델 훈련 EVENT_TIMESTAMP 중에의 값에 대해 다음과 같은 날짜/타임스탬프 형식을 지원합니다.
%yyyy-%mm-%ddT%hh:%mm:%ssZ(밀리초 없이 UTC 전용 ISO 8601 표준)
예: 2019-11-30T13:01:01Z
-
%yyyy/%mm/%dd %hh:%mm:%ss(AM/PM)
예: 2019/11/30 1:01:01 PM 또는 2019/11/30 13:01:01
%mm/%dd/%yyyy %hh:%mm:%ss
예: 11/30/2019 1:01:01 PM, 11/30/2019 13:01:01
%mm/%dd/%yy %hh:%mm:%ss
예: 11/30/19 1:01:01 PM, 11/30/19 13:01:01
Amazon Fraud Detector는 이벤트 타임스탬프에 대한 날짜/타임스탬프 형식을 구문 분석할 때 다음과 같이 가정합니다.
ISO 8601 표준을 사용하는 경우 이전 사양과 정확히 일치해야 합니다.
다른 형식 중 하나를 사용하는 경우 추가 유연성이 있습니다.
월과 일에는 한 자릿수 또는 두 자릿수를 입력할 수 있습니다. 예를 들어 1/12/2019은 유효한 날짜입니다.
hh:mm:ss가 없는 경우 hh:mm:ss를 포함할 필요가 없습니다(예: 날짜를 제공하면 됩니다). 시간 및 분(예: hh:mm)의 하위 집합만 제공할 수도 있습니다. 시간만 제공하면 지원되지 않습니다. 밀리초도 지원되지 않습니다.
AM/PM 레이블을 입력하면 12시간 클럭이 가정됩니다. AM/PM 정보가 없는 경우 24시간 시계를 가정합니다.
날짜 요소의 구분 기호로 “/” 또는 “-”를 사용할 수 있습니다. 타임스탬프 요소에는 “:”가 사용됩니다.
시간 경과에 따른 데이터 세트 샘플링
동일한 시간 범위의 사기 및 합법적인 샘플의 예를 제공하는 것이 좋습니다. 예를 들어 지난 6개월 동안의 사기 이벤트를 제공하는 경우 동일한 기간에 균등하게 적용되는 합법적인 이벤트도 제공해야 합니다. 데이터 세트에 매우 고르지 않은 사기 및 합법적인 이벤트 분포가 포함되어 있는 경우 "시간별 사기 분포가 허용할 수 없을 정도로 변동합니다. 데이터 세트를 올바르게 분할할 수 없습니다.” 일반적으로이 오류의 가장 쉬운 해결 방법은 사기 이벤트와 합법적인 이벤트가 동일한 기간에 균등하게 샘플링되도록 하는 것입니다. 또한 짧은 기간 내에 사기가 크게 급증한 경우 데이터를 제거해야 할 수도 있습니다.
균등하게 분산된 데이터 세트를 생성하기에 충분한 데이터를 생성할 수 없는 경우 한 가지 접근 방식은 이벤트의 EVENT_TIMESTAMP를 균등하게 분산되도록 무작위화하는 것입니다. 그러나 Amazon Fraud Detector는 EVENT_TIMESTAMP를 사용하여 데이터 세트의 적절한 이벤트 하위 집합에 대한 모델을 평가하기 때문에 성능 지표가 비현실적으로 나타나는 경우가 많습니다.
Null 및 누락된 값
Amazon Fraud Detector는 null 및 누락 값을 처리합니다. 그러나 변수에 대한 null의 백분율은 제한되어야 합니다. EVENT_TIMESTAMP 및 EVENT_LABEL 열에는 누락된 값이 포함되어서는 안 됩니다.
파일 검증
다음 조건 중 하나가 트리거되면 Amazon Fraud Detector가 모델 훈련에 실패합니다.
-
CSV를 구문 분석할 수 없는 경우
-
열의 데이터 유형이 잘못된 경우