As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Criar esquemas para normalização
A BDA oferece recursos de normalização que permitem converter e padronizar os dados extraídos de acordo com seus requisitos específicos. Essas tarefas de normalização podem ser categorizadas em normalização de chaves e normalização de valores.
Normalização de chaves
Em muitos casos, os campos do documento podem ter variações na forma como são representados ou rotulados. Por exemplo, o campo “Cadastro de Pessoa Física” pode aparecer como “CPF”, “Identidade fiscal”, “número de identificação de contribuinte fiscal” ou outras variações semelhantes. Para enfrentar esse desafio, a BDA oferece a normalização de chaves, que permite que você forneça instruções sobre as variações em suas definições de campo.
Ao utilizar a normalização de chaves, você pode orientar a BDA a reconhecer e mapear diferentes representações do mesmo campo em uma chave padronizada. Esse recurso garante que os dados sejam extraídos e organizados de forma consistente, independentemente das variações presentes nos documentos originais.
| Campo | Instrução | Tipo de extração | Tipo |
|---|---|---|---|
|
LastName |
Sobrenome da pessoa. |
Explícito |
String |
|
BirthNum |
Número do documento ou número do arquivo da certidão de nascimento. |
Explícito |
String |
|
OtherIncome |
Outra renda, incluindo crédito ou reembolso de imposto federal e estadual sobre gasolina ou combustível. |
Explícito |
Número |
|
BusinessName |
Nome da empresa, contratante ou entidade que declara imposto de renda. |
Explícito |
String |
|
power factor |
Fator de potência ou multiplicador usado para esse item de linha de uso. |
Explícito |
String |
|
BirthPlace |
Nome do hospital ou da instituição onde a pessoa nasceu. |
Explícito |
String |
|
Cause of Injury |
Causa da lesão ou doença ocupacional e como ela está relacionada ao trabalho. |
Explícito |
String |
Para campos com conjuntos de valores ou enumerações predefinidos, você pode fornecer os valores ou intervalos esperados na instrução do campo. Recomendamos que você inclua as variações entre aspas, conforme mostrado nos exemplos.
| Campo | Instrução | Tipo de extração | Tipo |
|---|---|---|---|
|
LICENSE_CLASS |
O código de classe com uma única letra, como “A”, “B” ou “C.” |
Explícito |
String |
|
sex |
O sexo. “M” ou “F”. |
Explícito |
String |
|
InformantType |
O tipo de informação. “Pais” ou “Outro”. |
Explícito |
String |
|
INFORMATION COLLECTION CHANNEL |
UMA DAS SEGUINTES: “ENTREVISTA PRESENCIAL”, “ENTREVISTA POR TELEFONE”, “FAX OU CORREIO”, “E-MAIL OU INTERNET”. |
Explícito |
String |
Normalização de valores
A normalização de valores é uma tarefa fundamental nos pipelines de processamento de dados, em que os dados extraídos precisam ser transformados em um formato consistente e padronizado. Esse processo garante que os sistemas posteriores possam consumir e processar os dados sem problemas de compatibilidade ou ambiguidades.
Usando os recursos de normalização da BDA, você pode padronizar formatos, converter unidades de medida e converter valores em tipos de dados específicos.
Para tarefas de normalização de valores, o tipo extração inferida deve ser usado, pois o valor pode não corresponder exatamente ao texto bruto ou ao OCR do documento depois de normalizado. Por exemplo, um valor de data como “06/25/2022" que precisa ser formatado como “AAAA-MM-DD” será extraído como “2022-06-25" após a normalização, não correspondendo, portanto, à saída de OCR do documento.
Padronizar formatos: você pode converter valores em formatos predefinidos, como códigos abreviados, esquemas de numeração ou formatos de data específicos. Isso permite que você garanta a consistência na representação de dados aderindo aos padrões do setor ou a convenções organizacionais.
| Campo | Instrução | Tipo de extração | Tipo |
|---|---|---|---|
|
ssn |
O SSN, formatado como XXX-XX-XXX |
Inferido |
String |
|
STATE |
O código de duas letras do estado. |
Inferido |
String |
|
EXPIRATION_DATE |
A data de expiração no formato YYYY-MM-DD |
Inferido |
String |
|
DATE_OF_BIRTH |
A data de nascimento do motorista em YYYY-MM-DD formato |
Inferido |
String |
|
CHECK_DATE |
A data em que o cheque foi assinado. Reformatar para YYYY-MM-DD |
Inferido |
String |
|
PurchaseDate |
Data de compra do veículo em mm/dd/yy formato |
Inferido |
String |
Você também pode converter valores em uma unidade de medida padrão ou em um tipo de dados específico ao lidar com determinados cenários, como não aplicável.
| Campo | Instrução | Tipo de extração | Tipo |
|---|---|---|---|
|
WEIGHT |
Peso convertido em libras. |
Inferido |
Número |
|
HEIGHT |
Altura convertida em polegadas. |
Inferido |
Número |
|
nonqualified_plans_income |
O valor no campo 11. 0 se N/A. |
Inferido |
Número |