So erstellen Sie Vorlagen für die Extraktion - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

So erstellen Sie Vorlagen für die Extraktion

Mit BDA können Sie die spezifischen Datenfelder definieren, die Sie aus ihren Bildern extrahieren möchten, wenn Sie eine Vorlage erstellen. Dies dient als eine Reihe von Anweisungen, die BDA dabei unterstützen, nach welchen Informationen zu suchen und wie diese zu interpretieren sind.

Definieren von Feldern

Zu Beginn können Sie für jedes Feld, das extrahiert werden muss, eine Eigenschaft erstellen, z. B. employee_id oder product_name. Für jedes Feld müssen Sie eine Beschreibung, einen Datentyp und einen Inferenztyp angeben.

Um ein Extrahierungsfeld zu definieren, müssen Sie die folgenden Parameter angeben:

  • Feldname: Bietet eine für Menschen lesbare Erklärung dessen, wofür das Feld steht. Dies hilft dabei, den Kontext und den Zweck des Feldes zu verstehen, und ermöglicht die genaue Extraktion von Daten.

  • Beschreibung: Bietet eine Erklärung in natürlicher Sprache dafür, was das Feld darstellt. Dies hilft dabei, den Kontext und den Zweck des Feldes zu verstehen, und ermöglicht die genaue Extraktion von Daten.

  • Typ: Gibt den Datentyp des Feldwerts an. BDA unterstützt die folgenden Datentypen:

    • Zeichenfolge: Für textbasierte Werte

    • Zahl: Für numerische Werte

    • boolean: Für Werte true/false

    • Array: Für Felder, die mehrere Werte desselben Typs enthalten können (z. B. ein Array von Zeichenfolgen oder ein Array von Zahlen)

  • Inferenztyp: Weist BDA an, wie die Extraktion des Feldwerts zu handhaben ist. Die unterstützten Inferenztypen sind:

    • Explizit: BDA sollte den Wert direkt aus dem Dokument extrahieren.

    • Abgeleitet: BDA sollte den Wert auf Grundlage der im Dokument enthaltenen Informationen ableiten.

Hier sehen Sie ein Beispiel für eine Felddefinition mit allen Parametern:

Console
Hier wird in der Konsole gezeigt, wie man „Feldname“ und „Anweisung“ hinzufügt. Der Typ ist auf „Zeichenfolgen-Array“ und der Extraktionstyp ist auf „Explizit“ gesetzt.
API
"product_name":{ "type":"string", "inferenceType":"Explicit", "description":"The short name of the product without any extra details" }

In diesem Beispiel:

  • Der Typ ist auf „Zeichenfolge“ festgelegt, was bedeutet, dass der Wert des Felds „product_type“ textbasiert sein soll.

  • „inferenceType ist auf „Explicit“ gesetzt, sodass BDA angewiesen wird, den Wert ohne Transformation oder Überprüfung direkt aus dem Dokument zu extrahieren.

  • Die Anweisung bietet zusätzlichen Kontext und verdeutlicht, dass das Feld den Kurznamen des Produkts ohne zusätzliche Details enthalten sollte.

Indem Sie diese Parameter für jedes Feld angeben, stellen Sie BDA die erforderlichen Informationen zur Verfügung, um präzise Informationen aus Ihren Dokumenten zu extrahieren und daraus Erkenntnisse zu gewinnen.

Feld Anweisungen Extraktionstyp Typ

ApplicantsName

Vollständiger Name des Bewerbers

explizit

Zeichenfolge

DateOfBirth

Geburtsdatum des Mitarbeiters

explizit

Zeichenfolge

Vertrieb

Bruttoeinnahmen oder Umsätze

explizit

number

Statement_starting_balance

Saldo zu Beginn eines Zeitraums

explizit

number

Felder mit mehreren Werten

In Fällen, in denen ein Feld mehrere Werte enthalten kann, können Sie Arrays oder Tabellen definieren.

Felderliste

Für Felder, die eine Werteliste enthalten, können Sie einen Array-Datentyp definieren.

In diesem Beispiel ist "OtherExpenses" als ein Array von Zeichenketten definiert, sodass BDA mehrere Ausgabenposten für dieses Feld extrahieren kann.

Console
Hier wird in der Konsole gezeigt, wie man „Feldname“ und „Anweisung“ hinzufügt. Der Typ ist auf „Zeichenfolgen-Array“ und der Extraktionstyp ist auf „Explizit“ gesetzt.
API
"OtherExpenses":{ "type":"array", "inferenceType":"Explicit", "description":"Other business expenses not included in fields 8-26 or field 30", "items":{ "type":"string" } }
Tabellen

Wenn Ihr Dokument tabellarische Daten enthält, können Sie innerhalb des Schemas eine Tabellenstruktur definieren.

In diesem Beispiel ist „SERVICES_TABLE“ als Tabellentyp mit Spaltenfeldern wie Produktname, Beschreibung, Menge, Einzelpreis und Betrag definiert.

Console
Hier wird in der Konsole gezeigt, wie man „Feldname“ und „Anweisung“ hinzufügt. Der „Typ“ ist auf „Tabelle“ und der „Extraktionstyp“ ist auf „Explizit“ gesetzt und zeigt spaltenspezifische Felder an, die hinzugefügt wurden.
API
"definitions":{ "LINEITEM":{ "properties":{ "quantity":{ "type":"number", "inferenceType":"Explicit" }, "unit price":{ "type":"number", "inferenceType":"Explicit" }, "amount":{ "type":"number", "inferenceType":"Explicit", "description":"Unit Price * Quantity" }, "product name":{ "type":"string", "inferenceType":"Explicit", "description":"The short name of the product without any extra details" }, "product description":{ "type":"string", "inferenceType":"Explicit", "description":"The full item list description text" } } } }, "properties":{ "SERVICES_TABLE":{ "type":"array", "description":"Line items table listing all the items / services charged in the invoice including quantity, price, amount, product / service name and description.", "items":{ "$ref":"#/definitions/LINEITEM" } }, "... ..." ]

Durch die Definition umfassender Schemas mit entsprechenden Feldbeschreibungen, Datentypen und Inferenztypen können Sie sicherstellen, dass BDA die gewünschten Informationen korrekt aus Ihren Dokumenten extrahiert, unabhängig von Variationen in der Formatierung oder Darstellung.