So erstellen Sie Vorlagen für die Normalisierung - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

So erstellen Sie Vorlagen für die Normalisierung

BDA bietet Normalisierungsfunktionen, mit denen Sie die extrahierten Daten gemäß Ihren spezifischen Anforderungen konvertieren und standardisieren können. Diese Normalisierungsaufgaben können in Schlüsselnormalisierung und Wertnormalisierung unterteilt werden.

Schlüsselnormalisierung

In vielen Fällen können Dokumentfelder unterschiedlich dargestellt oder beschriftet werden. Das Feld „Sozialversicherungsnummer“ könnte beispielsweise als „SSN“, „Steuer-ID“, „TIN“ oder als andere ähnliche Varianten angezeigt werden. Um dieser Herausforderung zu begegnen, bietet BDA die Schlüsselnormalisierung an, mit der Sie Anweisungen zu den Variationen innerhalb Ihrer Felddefinitionen bereitstellen können.

Durch die Nutzung der Schlüsselnormalisierung können Sie BDA dabei unterstützen, verschiedene Repräsentationen desselben Felds zu erkennen und einem standardisierten Schlüssel zuzuordnen. Dieses Feature stellt sicher, dass Daten konsistent extrahiert und organisiert werden, unabhängig von den Variationen in den Quelldokumenten.

Feld Anweisungen Extraktionstyp Typ

LastName

Nachname der Person

explizit

Zeichenfolge

BirthNum

Dokumentennummer oder Aktenzeichen der Geburtsurkunde

explizit

Zeichenfolge

OtherIncome

Sonstige Einnahmen, einschließlich Steuergutschrift oder Rückerstattung von Benzin- oder Treibstoffsteuern auf Bundes- und Landesebene

explizit

Zahl

BusinessName

Name des Unternehmens, Auftragnehmers oder der Stelle, die das Formular W9 ausfüllt

explizit

Zeichenfolge

power factor

Leistungsfaktor oder Multiplikator, der für diesen Verwendungseinzelposten verwendet wurde

explizit

Zeichenfolge

BirthPlace

Name des Krankenhauses oder der Einrichtung, in der das Kind geboren wurde

explizit

Zeichenfolge

Cause of Injury

Ursache der Verletzung oder Berufskrankheit, einschließlich ihres Zusammenhanges mit dem Arbeitsplatz

explizit

Zeichenfolge

Für Felder mit vordefinierten Wertesätzen oder Aufzählungen können Sie die erwarteten Werte oder Bereiche in der Feldanweisung angeben. Wir empfehlen, die Variationen wie in den Beispielen gezeigt in Anführungszeichen zu setzen.

Feld Anweisungen Extraktionstyp Typ

LICENSE_CLASS

Der einbuchstabige Klassencode, entweder „A“, „B“ oder „C“

explizit

Zeichenfolge

Sex

Das Geschlecht. Auswahl von „M“ oder „F“

explizit

Zeichenfolge

InformantType

Der Informationstyp. Entweder „Elternteil“ oder „Andere“

explizit

Zeichenfolge

INFORMATIONSSAMMELKANAL

EINER DER FOLGENDEN: „PERSÖNLICHES GESPRÄCH“, „TELEFONINTERVIEW“, „FAX ODER POST“, „E-MAIL ODER INTERNET“

explizit

Zeichenfolge

Wertnormalisierung

Die Normalisierung von Werten ist eine wichtige Aufgabe in Datenverarbeitungspipelines, bei denen extrahierte Daten in ein konsistentes und standardisiertes Format umgewandelt werden müssen. Dieser Prozess stellt sicher, dass nachgeschaltete Systeme die Daten nahtlos nutzen und verarbeiten können, ohne dass Kompatibilitätsprobleme oder Unklarheiten auftreten.

Mithilfe der Normalisierungsfunktionen in BDA können Sie Formate standardisieren, Maßeinheiten konvertieren und Werte in bestimmte Datentypen umwandeln.

Für Aufgaben zur Wertnormalisierung sollte der Extraktionstyp „Abgeleitet“ verwendet werden, da der Wert nach der Normalisierung möglicherweise nicht exakt mit dem Rohtext oder der OCR des Dokuments übereinstimmt. Beispielsweise wird ein Datumswert wie „06/25/2022“, der auf „YYYY-MM-DD“ formatiert werden muss, nach der Normalisierung als „2022-06-25" extrahiert und entspricht somit nicht der OCR-Ausgabe aus dem Dokument.

Formate standardisieren: Sie können Werte in vordefinierte Formate konvertieren, z. B. in verkürzte Codes, Nummerierungsschemas oder bestimmte Datumsformate. Auf diese Weise können Sie die Konsistenz der Datendarstellung sicherstellen, indem Sie Industriestandards oder organisatorische Konventionen einhalten.

Feld Anweisungen Extraktionstyp Typ

ssn

Die SSN, formatiert als XXX-XX-XXX

Abgeleitet

Zeichenfolge

STATE

Der zweibuchstabige Code des Bundesstaates

Abgeleitet

Zeichenfolge

expiration_date

Das Ablaufdatum im Format YYYY-MM-DD

Abgeleitet

Zeichenfolge

DATE_OF_BIRTH

Das Geburtsdatum des Fahrers im YYYY-MM-DD Format

Abgeleitet

Zeichenfolge

CHECK_DATE

Das Datum, an dem der Scheck unterschrieben wurde. Formatieren Sie das Format auf YYYY-MM-DD

Abgeleitet

Zeichenfolge

PurchaseDate

Kaufdatum des Fahrzeugs im Format mm/dd/yy

Abgeleitet

Zeichenfolge

Sie können Werte auch in eine Standardmaßeinheit oder in einen bestimmten Datentyp konvertieren, indem Sie Szenarien wie „Nicht zutreffend“ behandeln.

Feld Anweisungen Extraktionstyp Typ

WEIGHT

Gewicht in Pfund umgerechnet

Abgeleitet

Zahl

HEIGHT

Höhe in Zoll umgerechnet

Abgeleitet

Zahl

nonqualified_plans_income

Der Wert in Feld 11. 0, wenn N/Z.

Abgeleitet

Zahl