Criar esquemas para normalização - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Criar esquemas para normalização

A BDA oferece recursos de normalização que permitem converter e padronizar os dados extraídos de acordo com seus requisitos específicos. Essas tarefas de normalização podem ser categorizadas em normalização de chaves e normalização de valores.

Normalização de chaves

Em muitos casos, os campos do documento podem ter variações na forma como são representados ou rotulados. Por exemplo, o campo “Cadastro de Pessoa Física” pode aparecer como “CPF”, “Identidade fiscal”, “número de identificação de contribuinte fiscal” ou outras variações semelhantes. Para enfrentar esse desafio, a BDA oferece a normalização de chaves, que permite que você forneça instruções sobre as variações em suas definições de campo.

Ao utilizar a normalização de chaves, você pode orientar a BDA a reconhecer e mapear diferentes representações do mesmo campo em uma chave padronizada. Esse recurso garante que os dados sejam extraídos e organizados de forma consistente, independentemente das variações presentes nos documentos originais.

Campo Instrução Tipo de extração Tipo

LastName

Sobrenome da pessoa.

Explícito

String

BirthNum

Número do documento ou número do arquivo da certidão de nascimento.

Explícito

String

OtherIncome

Outra renda, incluindo crédito ou reembolso de imposto federal e estadual sobre gasolina ou combustível.

Explícito

Número

BusinessName

Nome da empresa, contratante ou entidade que declara imposto de renda.

Explícito

String

power factor

Fator de potência ou multiplicador usado para esse item de linha de uso.

Explícito

String

BirthPlace

Nome do hospital ou da instituição onde a pessoa nasceu.

Explícito

String

Cause of Injury

Causa da lesão ou doença ocupacional e como ela está relacionada ao trabalho.

Explícito

String

Para campos com conjuntos de valores ou enumerações predefinidos, você pode fornecer os valores ou intervalos esperados na instrução do campo. Recomendamos que você inclua as variações entre aspas, conforme mostrado nos exemplos.

Campo Instrução Tipo de extração Tipo

LICENSE_CLASS

O código de classe com uma única letra, como “A”, “B” ou “C.”

Explícito

String

sex

O sexo. “M” ou “F”.

Explícito

String

InformantType

O tipo de informação. “Pais” ou “Outro”.

Explícito

String

INFORMATION COLLECTION CHANNEL

UMA DAS SEGUINTES: “ENTREVISTA PRESENCIAL”, “ENTREVISTA POR TELEFONE”, “FAX OU CORREIO”, “E-MAIL OU INTERNET”.

Explícito

String

Normalização de valores

A normalização de valores é uma tarefa fundamental nos pipelines de processamento de dados, em que os dados extraídos precisam ser transformados em um formato consistente e padronizado. Esse processo garante que os sistemas posteriores possam consumir e processar os dados sem problemas de compatibilidade ou ambiguidades.

Usando os recursos de normalização da BDA, você pode padronizar formatos, converter unidades de medida e converter valores em tipos de dados específicos.

Para tarefas de normalização de valores, o tipo extração inferida deve ser usado, pois o valor pode não corresponder exatamente ao texto bruto ou ao OCR do documento depois de normalizado. Por exemplo, um valor de data como “06/25/2022" que precisa ser formatado como “AAAA-MM-DD” será extraído como “2022-06-25" após a normalização, não correspondendo, portanto, à saída de OCR do documento.

Padronizar formatos: você pode converter valores em formatos predefinidos, como códigos abreviados, esquemas de numeração ou formatos de data específicos. Isso permite que você garanta a consistência na representação de dados aderindo aos padrões do setor ou a convenções organizacionais.

Campo Instrução Tipo de extração Tipo

ssn

O SSN, formatado como XXX-XX-XXX

Inferido

String

STATE

O código de duas letras do estado.

Inferido

String

EXPIRATION_DATE

A data de expiração no formato YYYY-MM-DD

Inferido

String

DATE_OF_BIRTH

A data de nascimento do motorista em YYYY-MM-DD formato

Inferido

String

CHECK_DATE

A data em que o cheque foi assinado. Reformatar para YYYY-MM-DD

Inferido

String

PurchaseDate

Data de compra do veículo em mm/dd/yy formato

Inferido

String

Você também pode converter valores em uma unidade de medida padrão ou em um tipo de dados específico ao lidar com determinados cenários, como não aplicável.

Campo Instrução Tipo de extração Tipo

WEIGHT

Peso convertido em libras.

Inferido

Número

HEIGHT

Altura convertida em polegadas.

Inferido

Número

nonqualified_plans_income

O valor no campo 11. 0 se N/A.

Inferido

Número