

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 정규화를 위한 블루프린트 생성
<a name="idp-cases-normalization"></a>

BDA는 특정 요구 사항에 따라 추출된 데이터를 변환하고 표준화할 수 있는 정규화 기능을 제공합니다. 이러한 정규화 태스크는 키 정규화 및 값 정규화로 분류할 수 있습니다.

**키 정규화**  
대부분의 경우 문서 필드는 표현되거나 레이블이 지정되는 방식에 차이가 있을 수 있습니다. 예를 들어 'Social Security Number' 필드는 'SSN', 'Tax ID', 'TIN' 또는 기타 유사한 변형으로 표시될 수 있습니다. 이 문제를 해결하기 위해 BDA는 키 정규화를 제공하여 사용자가 필드 정의 내에 변형에 대한 지침을 제공할 수 있도록 합니다.

키 정규화를 활용하면 BDA가 동일한 필드의 다양한 표현을 인식하고 표준화된 키에 매핑하도록 안내할 수 있습니다. 이 기능은 소스 문서에 있는 변형에 관계없이 데이터를 일관되게 추출하고 구성할 수 있도록 보장합니다.


| Field | Instruction | Extraction Type | Type | 
| --- | --- | --- | --- | 
|  LastName  |  사람의 성  |  Explicit  |  문자열  | 
|  BirthNum  |  출생 증명서의 문서 번호 또는 파일 번호  |  Explicit  |  문자열  | 
|  OtherIncome  |  연방 및 주 휘발유 또는 연료 세금 공제 또는 환급을 포함한 기타 소득  |  Explicit  |  숫자  | 
|  BusinessName  |  W9를 채우는 비즈니스, 계약자 또는 법인의 이름  |  Explicit  |  문자열  | 
|  power factor  |  이 사용량 항목에 사용되는 역률 또는 승수  |  Explicit  |  문자열  | 
|  BirthPlace  |  아이가 태어난 병원 또는 기관의 이름  |  Explicit  |  문자열  | 
|  Cause of Injury  |  관련 작동 방식을 포함한 부상 또는 직업병의 원인  |  Explicit  |  문자열  | 

미리 정의된 값 세트 또는 열거형이 있는 필드의 경우 필드 명령 내에서 예상 값 또는 범위를 제공할 수 있습니다. 예제와 같이 인용 부호의 변형을 포함하는 것이 좋습니다.


| Field | Instruction | Extraction Type | Type | 
| --- | --- | --- | --- | 
|  LICENSE\$1CLASS  |  'A', 'B' 또는 'C' 중 하나인 단일 문자 클래스 코드  |  Explicit  |  문자열  | 
|  sex  |  성별. 'M' 또는 'F' 중 하나  |  Explicit  |  문자열  | 
|  InformantType  |  정보의 유형. 'Parent' 또는 'Other' 중 하나  |  Explicit  |  문자열  | 
|  INFORMATION COLLECTION CHANNEL  |  다음 중 하나: 'FACE TO FACE INTERVIEW', 'TELEPHONE INTERVIEW', 'FAX OR MAIL', 'EMAIL OR INTERNET'  |  Explicit  |  문자열  | 

**값 정규화**  
값 정규화는 추출된 데이터를 일관되고 표준화된 형식으로 변환해야 하는 데이터 처리 파이프라인의 주요 태스크입니다. 이 프로세스를 통해 다운스트림 시스템은 호환성 문제나 모호함 없이 데이터를 원활하게 사용하고 처리할 수 있습니다.

BDA에서 정규화 기능을 사용하면 형식을 표준화하고 측정 단위 및 캐스팅 값을 특정 데이터 유형으로 변환할 수 있습니다.

값 정규화 태스크의 경우 값이 정규화된 후 문서의 원시 텍스트 또는 OCR과 정확히 일치하지 않을 수 있으므로 추론된 추출 유형을 사용해야 합니다. 예를 들어 'YYYY-MM-DD' 형식으로 지정해야 하는 '06/25/2022'과 같은 날짜 값은 정규화 후 '2022-06-25'로 추출되므로 문서의 OCR 출력과 일치하지 않습니다.

형식 표준화: 값을 단축 코드, 번호 체계 또는 특정 날짜 형식과 같은 사전 정의된 형식으로 변환할 수 있습니다. 이를 통해 업계 표준 또는 조직 규칙을 준수하여 데이터 표현의 일관성을 보장할 수 있습니다.


| Field | Instruction | Extraction Type | Type | 
| --- | --- | --- | --- | 
|  ssn  |  SSN, XXX-XX-XXX 형식  |  Inferred  |  문자열  | 
|  STATE  |  상태의 두 문자 코드  |  Inferred  |  문자열  | 
|  EXPIRATION\$1DATE  |  YYYY-MM-DD 형식의 만료 날짜  |  Inferred  |  문자열  | 
|  DATE\$1OF\$1BIRTH  |  YYYY-MM-DD 형식의 드라이버 생년월일  |  Inferred  |  문자열  | 
|  CHECK\$1DATE  |  수표에 서명한 날짜. YYYY-MM-DD로 형식 변경  |  Inferred  |  문자열  | 
|  PurchaseDate  |  mm/dd/yy 형식의 차량 구매 날짜  |  Inferred  |  문자열  | 

해당 사항 없음과 같은 시나리오를 처리하여 값을 표준 측정 단위 또는 특정 데이터 유형으로 변환할 수도 있습니다.


| Field | Instruction | Extraction Type | Type | 
| --- | --- | --- | --- | 
|  WEIGHT  |  무게를 파운드로 변환  |  Inferred  |  숫자  | 
|  HEIGHT  |  높이를 인치로 변환  |  Inferred  |  숫자  | 
|  nonqualified\$1plans\$1income  |  필드 11의 값. 해당 사항이 없는 경우 0입니다.  |  Inferred  |  숫자  | 