정규화를 위한 블루프린트 생성 - Amazon Bedrock

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

정규화를 위한 블루프린트 생성

BDA는 특정 요구 사항에 따라 추출된 데이터를 변환하고 표준화할 수 있는 정규화 기능을 제공합니다. 이러한 정규화 태스크는 키 정규화 및 값 정규화로 분류할 수 있습니다.

키 정규화

대부분의 경우 문서 필드는 표현되거나 레이블이 지정되는 방식에 차이가 있을 수 있습니다. 예를 들어 'Social Security Number' 필드는 'SSN', 'Tax ID', 'TIN' 또는 기타 유사한 변형으로 표시될 수 있습니다. 이 문제를 해결하기 위해 BDA는 키 정규화를 제공하여 사용자가 필드 정의 내에 변형에 대한 지침을 제공할 수 있도록 합니다.

키 정규화를 활용하면 BDA가 동일한 필드의 다양한 표현을 인식하고 표준화된 키에 매핑하도록 안내할 수 있습니다. 이 기능은 소스 문서에 있는 변형에 관계없이 데이터를 일관되게 추출하고 구성할 수 있도록 보장합니다.

Field Instruction Extraction Type Type

LastName

사람의 성

Explicit

문자열

BirthNum

출생 증명서의 문서 번호 또는 파일 번호

Explicit

문자열

OtherIncome

연방 및 주 휘발유 또는 연료 세금 공제 또는 환급을 포함한 기타 소득

Explicit

숫자

BusinessName

W9를 채우는 비즈니스, 계약자 또는 법인의 이름

Explicit

문자열

power factor

이 사용량 항목에 사용되는 역률 또는 승수

Explicit

문자열

BirthPlace

아이가 태어난 병원 또는 기관의 이름

Explicit

문자열

Cause of Injury

관련 작동 방식을 포함한 부상 또는 직업병의 원인

Explicit

문자열

미리 정의된 값 세트 또는 열거형이 있는 필드의 경우 필드 명령 내에서 예상 값 또는 범위를 제공할 수 있습니다. 예제와 같이 인용 부호의 변형을 포함하는 것이 좋습니다.

Field Instruction Extraction Type Type

LICENSE_CLASS

'A', 'B' 또는 'C' 중 하나인 단일 문자 클래스 코드

Explicit

문자열

sex

성별. 'M' 또는 'F' 중 하나

Explicit

문자열

InformantType

정보의 유형. 'Parent' 또는 'Other' 중 하나

Explicit

문자열

INFORMATION COLLECTION CHANNEL

다음 중 하나: 'FACE TO FACE INTERVIEW', 'TELEPHONE INTERVIEW', 'FAX OR MAIL', 'EMAIL OR INTERNET'

Explicit

문자열

값 정규화

값 정규화는 추출된 데이터를 일관되고 표준화된 형식으로 변환해야 하는 데이터 처리 파이프라인의 주요 태스크입니다. 이 프로세스를 통해 다운스트림 시스템은 호환성 문제나 모호함 없이 데이터를 원활하게 사용하고 처리할 수 있습니다.

BDA에서 정규화 기능을 사용하면 형식을 표준화하고 측정 단위 및 캐스팅 값을 특정 데이터 유형으로 변환할 수 있습니다.

값 정규화 태스크의 경우 값이 정규화된 후 문서의 원시 텍스트 또는 OCR과 정확히 일치하지 않을 수 있으므로 추론된 추출 유형을 사용해야 합니다. 예를 들어 'YYYY-MM-DD' 형식으로 지정해야 하는 '06/25/2022'과 같은 날짜 값은 정규화 후 '2022-06-25'로 추출되므로 문서의 OCR 출력과 일치하지 않습니다.

형식 표준화: 값을 단축 코드, 번호 체계 또는 특정 날짜 형식과 같은 사전 정의된 형식으로 변환할 수 있습니다. 이를 통해 업계 표준 또는 조직 규칙을 준수하여 데이터 표현의 일관성을 보장할 수 있습니다.

Field Instruction Extraction Type Type

ssn

SSN, XXX-XX-XXX 형식

Inferred

문자열

STATE

상태의 두 문자 코드

Inferred

문자열

EXPIRATION_DATE

YYYY-MM-DD 형식의 만료 날짜

Inferred

문자열

DATE_OF_BIRTH

YYYY-MM-DD 형식의 드라이버 생년월일

Inferred

문자열

CHECK_DATE

수표에 서명한 날짜. YYYY-MM-DD로 형식 변경

Inferred

문자열

PurchaseDate

mm/dd/yy 형식의 차량 구매 날짜

Inferred

문자열

해당 사항 없음과 같은 시나리오를 처리하여 값을 표준 측정 단위 또는 특정 데이터 유형으로 변환할 수도 있습니다.

Field Instruction Extraction Type Type

WEIGHT

무게를 파운드로 변환

Inferred

숫자

HEIGHT

높이를 인치로 변환

Inferred

숫자

nonqualified_plans_income

필드 11의 값. 해당 사항이 없는 경우 0입니다.

Inferred

숫자