기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
정규화를 위한 블루프린트 생성
BDA는 특정 요구 사항에 따라 추출된 데이터를 변환하고 표준화할 수 있는 정규화 기능을 제공합니다. 이러한 정규화 태스크는 키 정규화 및 값 정규화로 분류할 수 있습니다.
키 정규화
대부분의 경우 문서 필드는 표현되거나 레이블이 지정되는 방식에 차이가 있을 수 있습니다. 예를 들어 'Social Security Number' 필드는 'SSN', 'Tax ID', 'TIN' 또는 기타 유사한 변형으로 표시될 수 있습니다. 이 문제를 해결하기 위해 BDA는 키 정규화를 제공하여 사용자가 필드 정의 내에 변형에 대한 지침을 제공할 수 있도록 합니다.
키 정규화를 활용하면 BDA가 동일한 필드의 다양한 표현을 인식하고 표준화된 키에 매핑하도록 안내할 수 있습니다. 이 기능은 소스 문서에 있는 변형에 관계없이 데이터를 일관되게 추출하고 구성할 수 있도록 보장합니다.
| Field | Instruction | Extraction Type | Type |
|---|---|---|---|
|
LastName |
사람의 성 |
Explicit |
문자열 |
|
BirthNum |
출생 증명서의 문서 번호 또는 파일 번호 |
Explicit |
문자열 |
|
OtherIncome |
연방 및 주 휘발유 또는 연료 세금 공제 또는 환급을 포함한 기타 소득 |
Explicit |
숫자 |
|
BusinessName |
W9를 채우는 비즈니스, 계약자 또는 법인의 이름 |
Explicit |
문자열 |
|
power factor |
이 사용량 항목에 사용되는 역률 또는 승수 |
Explicit |
문자열 |
|
BirthPlace |
아이가 태어난 병원 또는 기관의 이름 |
Explicit |
문자열 |
|
Cause of Injury |
관련 작동 방식을 포함한 부상 또는 직업병의 원인 |
Explicit |
문자열 |
미리 정의된 값 세트 또는 열거형이 있는 필드의 경우 필드 명령 내에서 예상 값 또는 범위를 제공할 수 있습니다. 예제와 같이 인용 부호의 변형을 포함하는 것이 좋습니다.
| Field | Instruction | Extraction Type | Type |
|---|---|---|---|
|
LICENSE_CLASS |
'A', 'B' 또는 'C' 중 하나인 단일 문자 클래스 코드 |
Explicit |
문자열 |
|
sex |
성별. 'M' 또는 'F' 중 하나 |
Explicit |
문자열 |
|
InformantType |
정보의 유형. 'Parent' 또는 'Other' 중 하나 |
Explicit |
문자열 |
|
INFORMATION COLLECTION CHANNEL |
다음 중 하나: 'FACE TO FACE INTERVIEW', 'TELEPHONE INTERVIEW', 'FAX OR MAIL', 'EMAIL OR INTERNET' |
Explicit |
문자열 |
값 정규화
값 정규화는 추출된 데이터를 일관되고 표준화된 형식으로 변환해야 하는 데이터 처리 파이프라인의 주요 태스크입니다. 이 프로세스를 통해 다운스트림 시스템은 호환성 문제나 모호함 없이 데이터를 원활하게 사용하고 처리할 수 있습니다.
BDA에서 정규화 기능을 사용하면 형식을 표준화하고 측정 단위 및 캐스팅 값을 특정 데이터 유형으로 변환할 수 있습니다.
값 정규화 태스크의 경우 값이 정규화된 후 문서의 원시 텍스트 또는 OCR과 정확히 일치하지 않을 수 있으므로 추론된 추출 유형을 사용해야 합니다. 예를 들어 'YYYY-MM-DD' 형식으로 지정해야 하는 '06/25/2022'과 같은 날짜 값은 정규화 후 '2022-06-25'로 추출되므로 문서의 OCR 출력과 일치하지 않습니다.
형식 표준화: 값을 단축 코드, 번호 체계 또는 특정 날짜 형식과 같은 사전 정의된 형식으로 변환할 수 있습니다. 이를 통해 업계 표준 또는 조직 규칙을 준수하여 데이터 표현의 일관성을 보장할 수 있습니다.
| Field | Instruction | Extraction Type | Type |
|---|---|---|---|
|
ssn |
SSN, XXX-XX-XXX 형식 |
Inferred |
문자열 |
|
STATE |
상태의 두 문자 코드 |
Inferred |
문자열 |
|
EXPIRATION_DATE |
YYYY-MM-DD 형식의 만료 날짜 |
Inferred |
문자열 |
|
DATE_OF_BIRTH |
YYYY-MM-DD 형식의 드라이버 생년월일 |
Inferred |
문자열 |
|
CHECK_DATE |
수표에 서명한 날짜. YYYY-MM-DD로 형식 변경 |
Inferred |
문자열 |
|
PurchaseDate |
mm/dd/yy 형식의 차량 구매 날짜 |
Inferred |
문자열 |
해당 사항 없음과 같은 시나리오를 처리하여 값을 표준 측정 단위 또는 특정 데이터 유형으로 변환할 수도 있습니다.
| Field | Instruction | Extraction Type | Type |
|---|---|---|---|
|
WEIGHT |
무게를 파운드로 변환 |
Inferred |
숫자 |
|
HEIGHT |
높이를 인치로 변환 |
Inferred |
숫자 |
|
nonqualified_plans_income |
필드 11의 값. 해당 사항이 없는 경우 0입니다. |
Inferred |
숫자 |