

Amazon Fraud Detector는 2025년 11월 7일부터 신규 고객에게 더 이상 공개되지 않습니다. Amazon Fraud Detector와 유사한 기능을 알아보려면 Amazon SageMaker, AutoGluon 및를 살펴보세요 AWS WAF.

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# CSV 파일 생성
<a name="creating-csv-file"></a>

Amazon Fraud Detector를 사용하려면 CSV 파일의 첫 번째 행에 열 헤더가 포함되어야 합니다. CSV 파일의 열 헤더는 이벤트 유형에 정의된 변수에 매핑되어야 합니다. 예제 데이터 세트는 섹션을 참조하세요. [예제 데이터 세트 가져오기 및 업로드](step-1-get-s3-data.md) 

Online Fraud Insights 모델에는 최소 2개의 변수와 최대 100개의 변수가 있는 훈련 데이터 세트가 필요합니다. 이벤트 변수 외에도 훈련 데이터 세트에는 다음 헤더가 포함되어야 합니다.
+ EVENT\_TIMESTAMP - 이벤트가 발생한 시기를 정의합니다.
+ EVENT\_LABEL - 이벤트를 사기성 또는 합법적인 것으로 분류합니다. 열의 값은 이벤트 유형에 정의된 값과 일치해야 합니다.

다음 샘플 CSV 데이터는 온라인 판매자의 과거 등록 이벤트를 나타냅니다.

```
EVENT_TIMESTAMP,EVENT_LABEL,ip_address,email_address
4/10/2019 11:05,fraud,209.146.137.48,fake_burtonlinda@example.net
12/20/2018 20:04,legit,203.0.112.189,fake_davidbutler@example.org
3/14/2019 10:56,legit,169.255.33.54,fake_shelby76@example.net
1/3/2019 8:38,legit,192.119.44.26,fake_curtis40@example.com
9/25/2019 3:12,legit,192.169.85.29,fake_rmiranda@example.org
```

**참고**  
CSV 데이터 파일에는 데이터의 일부로 큰따옴표와 쉼표가 포함될 수 있습니다.

해당 이벤트 유형의 단순화된 버전이 아래에 나와 있습니다. 이벤트 변수는 CSV 파일의 헤더에 해당하고의 값은 레이블 목록의 값에 `EVENT_LABEL` 해당합니다.

```
(
name = 'sample_registration',
eventVariables = ['ip_address', 'email_address'],
labels = ['legit', 'fraud'],
entityTypes = ['sample_customer']
)
```

## 이벤트 타임스탬프 형식
<a name="timestamp-formats"></a>

이벤트 타임스탬프가 필수 형식인지 확인합니다. 모델 빌드 프로세스의 일환으로 Online Fraud Insights 모델 유형은 이벤트 타임스탬프를 기반으로 데이터를 주문하고 훈련 및 테스트 목적으로 데이터를 분할합니다. 성능을 공정하게 추정하기 위해 모델은 먼저 훈련 데이터 세트를 훈련한 다음 테스트 데이터 세트에서이 모델을 테스트합니다.

Amazon Fraud Detector는 모델 훈련 `EVENT_TIMESTAMP` 중에의 값에 대해 다음과 같은 날짜/타임스탬프 형식을 지원합니다.
+ %yyyy-%mm-%ddT%hh:%mm:%ssZ(밀리초 없이 UTC 전용 ISO 8601 표준)

  예: 2019-11-30T13:01:01Z 
+ %yyyy/%mm/%dd %hh:%mm:%ss(AM/PM)

  예: 2019/11/30 1:01:01 PM 또는 2019/11/30 13:01:01 
+ %mm/%dd/%yyyy %hh:%mm:%ss

  예: 11/30/2019 1:01:01 PM, 11/30/2019 13:01:01 
+ %mm/%dd/%yy %hh:%mm:%ss

  예: 11/30/19 1:01:01 PM, 11/30/19 13:01:01 

Amazon Fraud Detector는 이벤트 타임스탬프에 대한 날짜/타임스탬프 형식을 구문 분석할 때 다음과 같이 가정합니다.
+ ISO 8601 표준을 사용하는 경우 이전 사양과 정확히 일치해야 합니다.
+ 다른 형식 중 하나를 사용하는 경우 추가 유연성이 있습니다.
  + 월과 일에는 한 자릿수 또는 두 자릿수를 입력할 수 있습니다. 예를 들어 1/12/2019은 유효한 날짜입니다.
  + hh:mm:ss가 없는 경우 hh:mm:ss를 포함할 필요가 없습니다(예: 날짜를 제공하면 됩니다). 시간 및 분(예: hh:mm)의 하위 집합만 제공할 수도 있습니다. 시간만 제공하면 지원되지 않습니다. 밀리초도 지원되지 않습니다.
  + AM/PM 레이블을 입력하면 12시간 클럭이 가정됩니다. AM/PM 정보가 없는 경우 24시간 시계를 가정합니다.
  + 날짜 요소의 구분 기호로 “/” 또는 “-”를 사용할 수 있습니다. 타임스탬프 요소에는 “:”가 사용됩니다.

## 시간 경과에 따른 데이터 세트 샘플링
<a name="sample-your-dataset"></a>

동일한 시간 범위의 사기 및 합법적인 샘플의 예를 제공하는 것이 좋습니다. 예를 들어 지난 6개월 동안의 사기 이벤트를 제공하는 경우 동일한 기간에 균등하게 적용되는 합법적인 이벤트도 제공해야 합니다. 데이터 세트에 매우 고르지 않은 사기 및 합법적인 이벤트 분포가 포함되어 있는 경우 *"시간별 사기 분포가 허용할 수 없을 정도로 변동합니다. 데이터 세트를 올바르게 분할할 수 없습니다.”* 일반적으로이 오류의 가장 쉬운 해결 방법은 사기 이벤트와 합법적인 이벤트가 동일한 기간에 균등하게 샘플링되도록 하는 것입니다. 또한 짧은 기간 내에 사기가 크게 급증한 경우 데이터를 제거해야 할 수도 있습니다.

균등하게 분산된 데이터 세트를 생성하기에 충분한 데이터를 생성할 수 없는 경우 한 가지 접근 방식은 이벤트의 EVENT\_TIMESTAMP를 균등하게 분산되도록 무작위화하는 것입니다. 그러나 Amazon Fraud Detector는 EVENT\_TIMESTAMP를 사용하여 데이터 세트의 적절한 이벤트 하위 집합에 대한 모델을 평가하기 때문에 성능 지표가 비현실적으로 나타나는 경우가 많습니다.

## Null 및 누락된 값
<a name="null-missing-values"></a>

Amazon Fraud Detector는 null 및 누락 값을 처리합니다. 그러나 변수에 대한 null의 백분율은 제한되어야 합니다. EVENT\_TIMESTAMP 및 EVENT\_LABEL 열에는 누락된 값이 포함되어서는 안 됩니다.

## 파일 검증
<a name="csv-file-validation"></a>

다음 조건 중 하나가 트리거되면 Amazon Fraud Detector가 모델 훈련에 실패합니다.
+ CSV를 구문 분석할 수 없는 경우
+ 열의 데이터 유형이 잘못된 경우