Bewährte Methoden für die Datenspeicherphase

Phase der Datenspeicherung

Da der Inhalt von PDF-Dateien in der Regel Formulare (Schlüssel-Wert-Paare), Tabellen und Freitext umfasst, muss die JSON-Datei verschachtelte Schlüssel-Wert-Paare enthalten, um die PDF-Dateistruktur darzustellen und die extrahierten Daten zu speichern. PDF-Dateien sind unstrukturierte oder halbstrukturierte Daten, was bedeutet, dass sie kein festes Schema haben. Das bedeutet, dass es schwierig sein kann, den Inhalt von PDF-Dateien in einer herkömmlichen SQL-Datenbank zu speichern. Eine NoSQL-Datenbank eignet sich jedoch ideal zum Speichern von PDF-Dateiinhalten, da sie kein vordefiniertes Schema benötigt. Nachdem der Inhalt der PDF-Datei extrahiert und nachbearbeitet wurde, können Sie ihn als einen Datensatz für jede PDF-Datei in einer Amazon DynamoDB-Tabelle speichern.

Wir empfehlen, die endgültig extrahierten Daten als JSON-Datei in Amazon Simple Storage Service (Amazon S3) und als Datensatz in einer DynamoDB-Tabelle zu speichern. Ihre Downstream-Verarbeitungs- und Analyseanwendungen können problemlos auf JSON-Dateien in Amazon S3 verweisen. Sie können beispielsweise Amazon S3 als Datenquelle für die Erstellung von ML-Modellen in Amazon SageMaker AI verwenden, die JSON-Datei direkt mit Amazon Athena abfragen oder Amazon S3 als Datenquelle für Amazon Quick Sight verwenden. Auf Inhalte extrahierter PDF-Dateien, die in DynamoDB-Tabellen gespeichert sind, kann problemlos und mit geringer Latenz in jeder Größenordnung zugegriffen werden. Daher eignet sich dieser Ansatz für die Verwendung als Backend-Datenbank für Abfragen und Scans.

Bewährte Methoden für die Datenspeicherphase

Verwenden Sie die folgenden zwei bewährten Methoden, um eine erfolgreiche Datenspeicherungsphase sicherzustellen:

Stellen Sie sicher, dass Sie die endgültige JSON-Datei auf Amazon S3 in einem anderen Ausgabeordner speichern und einen Namen verwenden, der auf dem PDF-Dateityp basiert.
DynamoDB verwendet einen Primärschlüssel, um jedes Element in einer Tabelle eindeutig zu identifizieren. Der Primärschlüssel kann ein einzelner Schlüssel (z. B. ein Partitionsschlüssel) oder ein zusammengesetzter Schlüssel (z. B. ein Partitionsschlüssel und ein Sortierschlüssel) sein. Für den Primärschlüssel dieser Lösung empfehlen wir, entweder eine eindeutige PDF-Dateikennung (z. B. den PDF-Dateinamen) als Partitionsschlüssel oder eine Kombination aus zwei Kennungen (z. B. Datum und Warehouse-Name) als Partitionsschlüssel und Sortierschlüssel zu verwenden. Weitere Informationen dazu finden Sie unter Kernkomponenten von Amazon DynamoDB in der Amazon DynamoDB DynamoDB-Dokumentation.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Phase der Verarbeitung

Analysephase