Creación de esquemas para normalización - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Creación de esquemas para normalización

BDA proporciona capacidades de normalización que le permiten convertir y estandarizar los datos extraídos de acuerdo con sus requisitos específicos. Estas tareas de normalización se pueden clasificar en normalización de claves y normalización de valores.

Normalización de claves

En muchos casos, los campos del documento pueden tener variaciones en la forma en que se representan o etiquetan. Por ejemplo, el campo “Número de la seguridad social” puede aparecer como “SSN”, “Número de identificación fiscal”, “NSS” u otras variantes similares. Para abordar este desafío, BDA ofrece la normalización de claves, que le permite proporcionar instrucciones sobre las variaciones en las definiciones de sus campos.

Con la normalización de claves, puede guiar a BDA para que reconozca y asigne diferentes representaciones del mismo campo a una clave estandarizada. Esta característica garantiza que los datos se extraigan y organicen de forma coherente, independientemente de las variaciones presentes en los documentos de origen.

Campo Instrucciones Tipo de extracción Tipo

LastName

Apellidos de una persona

Explícita

Cadena

BirthNum

Número de documento o número de expediente del certificado de nacimiento

Explícita

Cadena

OtherIncome

Otros ingresos, incluidos los créditos o reembolsos fiscales federales y estatales sobre la gasolina o el combustible

Explícita

Número

BusinessName

Nombre de la empresa, contratista o entidad que rellena el formulario W9

Explícita

Cadena

factor de potencia

Factor de potencia o multiplicador utilizado para este elemento de línea de uso

Explícita

Cadena

BirthPlace

Nombre del hospital o institución donde nació el niño

Explícita

Cadena

Causa de la lesión

Causa de la lesión o enfermedad ocupacional, incluida la forma en que está relacionada con el trabajo

Explícita

Cadena

En el caso de los campos con conjuntos de valores o enumeraciones predefinidos, puede proporcionar los valores o intervalos esperados en la instrucción del campo. Se recomienda incluir las variaciones entre comillas, tal y como se muestra en los ejemplos.

Campo Instrucciones Tipo de extracción Tipo

LICENSE_CLASS

El código de clase de una sola letra: “A”, “B” o “C”

Explícita

Cadena

sex

El sexo: “M” o “F”

Explícita

Cadena

InformantType

El tipo de información: “Principal” u “Otro”

Explícita

Cadena

CANAL DE RECOPILACIÓN DE INFORMACIÓN

UNO DE LOS SIGUIENTES: “ENTREVISTA CARA A CARA”, “ENTREVISTA TELEFÓNICA”, “FAX O CORREO”, “CORREO ELECTRÓNICO O INTERNET”

Explícita

Cadena

Normalización de valores

La normalización de valores es una tarea clave en las canalizaciones de procesamiento de datos, donde los datos extraídos deben transformarse en un formato uniforme y estandarizado. Este proceso garantiza que los sistemas posteriores puedan consumir y procesar los datos de manera fluida, sin problemas de compatibilidad ni ambigüedades.

Al utilizar las funciones de normalización de BDA, puede estandarizar formatos, convertir unidades de medida y convertir valores en tipos de datos específicos.

Para las tareas de normalización de valores, se debe utilizar el tipo de extracción inferida, ya que es posible que el valor no coincida exactamente con el texto sin procesar o con el OCR del documento una vez normalizado. Por ejemplo, un valor de fecha como “06/25/2022” que deba tener el formato “AAAA-MM-DD” se extraerá como “2022-06-25” tras la normalización, por lo que no coincidirá con el resultado de OCR del documento.

Estandarizar los formatos: puede convertir valores a formatos predefinidos, como códigos abreviados, esquemas de numeración o formatos de fecha específicos. Esto le permite garantizar la coherencia en la representación de los datos al cumplir los estándares del sector o las convenciones de la organización.

Campo Instrucciones Tipo de extracción Tipo

ssn

El SSN, formateado como XXX-XX-XXX

Inferida

Cadena

STATE

El código de dos letras del estado

Inferida

Cadena

EXPIRATION_DATE

La fecha de caducidad en formato YYYY-MM-DD

Inferida

Cadena

DATE_OF_BIRTH

La fecha de nacimiento del conductor en formato YYYY-MM-DD

Inferida

Cadena

CHECK_DATE

La fecha en que se firmó el cheque. Reformatear a YYYY-MM-DD

Inferida

Cadena

PurchaseDate

Fecha de compra del vehículo en formato mm/dd/yy

Inferida

Cadena

También puede convertir valores en una unidad de medida estándar o en un tipo de datos específico gestionando escenarios como No aplicable.

Campo Instrucciones Tipo de extracción Tipo

WEIGHT

Peso convertido a libras

Inferida

Número

HEIGHT

Altura convertida a pulgadas

Inferida

Número

nonqualified_plans_income

El valor del campo 11. 0 si es N/A.

Inferida

Número