Création de plans pour la normalisation - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Création de plans pour la normalisation

BDA fournit des fonctionnalités de normalisation qui vous permettent de convertir et de standardiser les données extraites en fonction de vos besoins spécifiques. Ces tâches de normalisation peuvent être classées en deux catégories : normalisation des clés et normalisation des valeurs.

Normalisation des clés

Dans de nombreux cas, les champs du document peuvent présenter des variations dans la façon dont ils sont représentés ou étiquetés. Par exemple, le champ « Numéro de sécurité sociale » peut apparaître sous la forme « SSN », « Numéro fiscal », « TIN » ou d’autres variantes similaires. Pour relever ce défi, BDA propose la normalisation des clés, qui vous permet de fournir des instructions sur les variations au sein de vos définitions de champs.

En tirant parti de la normalisation des clés, vous pouvez aider BDA à reconnaître et à mapper différentes représentations d’un même champ à une clé standardisée. Cette fonctionnalité garantit que les données sont extraites et organisées de manière cohérente, quelles que soient les variations présentes dans les documents sources.

Champ Instruction Type d’extraction Type

LastName

Nom ou prénom de la personne

Explicite

String

BirthNum

Numéro de document ou numéro de dossier du certificat de naissance

Explicite

String

OtherIncome

Autres revenus, y compris le crédit ou le remboursement de la taxe fédérale et étatique sur l’essence ou le carburant

Explicite

Number

BusinessName

Nom de l’entreprise, de l’entrepreneur ou de l’entité remplissant le formulaire W9

Explicite

String

facteur de puissance

Facteur de puissance ou multiplicateur utilisé pour cet élément de la ligne d’utilisation

Explicite

String

BirthPlace

Nom de l’hôpital ou de l’établissement où l’enfant est né

Explicite

String

Cause de la blessure

Cause de la blessure ou de la maladie professionnelle, y compris son lien avec le travail

Explicite

String

Pour les champs comportant des jeux de valeurs ou des énumérations prédéfinis, vous pouvez fournir les valeurs ou les plages attendues dans les instructions de champ. Nous vous recommandons d’inclure les variations entre guillemets, comme indiqué dans les exemples.

Champ Instruction Type d’extraction Type

CLASSE_LICENCE

Code de classe à une seule lettre, soit « A », « B » ou « C »

Explicite

String

Sexe

Sexe. « M » ou « F »

Explicite

String

InformantType

Type d’information. « Parent » ou « Autre »

Explicite

String

CANAL DE COLLECTE D’INFORMATIONS

L’UN DES SUIVANTS : « ENTRETIEN EN FACE À FACE », « ENTRETIEN TÉLÉPHONIQUE », « TÉLÉCOPIE OU COURRIER », « E-MAIL OU INTERNET »

Explicite

String

Normalisation des valeurs

La normalisation des valeurs est une tâche essentielle dans les pipelines de traitement de données, où les données extraites doivent être transformées dans un format cohérent et standardisé. Ce processus garantit que les systèmes en aval peuvent consommer et traiter les données de manière fluide, sans rencontrer de problèmes de compatibilité ou d’ambiguïtés.

Les fonctionnalités de normalisation de BDA vous permettent de standardiser les formats, de convertir des unités de mesure et de convertir des valeurs en types de données spécifiques.

Pour les tâches de normalisation des valeurs, le type d’extraction Inféré doit être utilisé, car la valeur peut ne pas correspondre exactement au texte brut ou à l’OCR du document une fois celui-ci normalisé. Par exemple, une valeur de date telle que « 25/06/2022 » qui doit être au format « AAAA-MM-JJ » sera extraite sous la forme « 2022-06-25 » après normalisation, ne correspondant donc pas à la sortie OCR du document.

Standardiser les formats : vous pouvez convertir des valeurs dans des formats prédéfinis, tels que des codes raccourcis, des schémas de numérotation ou des formats de date spécifiques. Cela vous permet de garantir la cohérence de la représentation des données en respectant les normes du secteur ou les conventions organisationnelles.

Champ Instruction Type d’extraction Type

ssn

Le SSN, formaté comme XXX-XX-XXX

Inféré

String

STATE

Code à deux lettres de l’État

Inféré

String

DATE_EXPIRATION

La date d'expiration au YYYY-MM-DD format

Inféré

String

DATE_NAISSANCE

La date de naissance du conducteur au YYYY-MM-DD format

Inféré

String

DATE_VÉRIFICATION

Date à laquelle le chèque a été signé. Reformater en YYYY-MM-DD

Inféré

String

PurchaseDate

Date d'achat du véhicule au mm/dd/yy format

Inféré

String

Vous pouvez également convertir des valeurs en une unité de mesure standard ou en un type de données spécifique en gérant des scénarios tels que Non applicable.

Champ Instruction Type d’extraction Type

POIDS

Poids converti en livres

Inféré

Number

HAUTEUR

Hauteur convertie en pouces

Inféré

Number

revenus_plans non_qualifiés

Valeur du champ 11. 0 si N/A.

Inféré

Number