Entwicklung einer automatisierten Lösung zur Analyse von PDF-Dateien auf der AWS Cloud

Tianxia Jia und Yanyan Zhang, Amazon Web Services ()AWS

Oktober 2021 (Geschichte der Dokumente)

Organizations verwenden regelmäßig PDF-Dateien zum Speichern und Übertragen verschiedener Datentypen, einschließlich Text, Tabellen und Formularen. Es kann jedoch schwierig sein, Daten aus verschiedenen PDF-Dateien automatisch zu aggregieren und zu analysieren. Beispielsweise kann die Geschäftsanwendung eines Unternehmens regelmäßig verschiedene PDF-Dateien mit identischem Format aufnehmen, die Benutzer jedoch einzeln öffnen und lesen müssen. Das bedeutet, dass es für Benutzer schwierig ist, aus diesen PDF-Dateien nützliche Erkenntnisse zu gewinnen, sodass sie relevante Daten manuell extrahieren und Tools von Drittanbietern für die weitere Analyse verwenden müssen.

In der Amazon Web Services (AWS) Cloud extrahiert Amazon Textract automatisch Informationen (z. B. gedruckten Text, Formulare und Tabellen) aus PDF-Dateien und erstellt eine Datei im JSON-Format, die Informationen aus der ursprünglichen PDF-Datei enthält. Während der Nachbearbeitung werden die extrahierten Daten in Amazon DynamoDB gespeichert, und Sie können mithilfe von Analysen und Visualisierungen in Amazon Quick Geschäftserkenntnisse generieren.

Dieses Handbuch bietet eine serverlose, automatisierte Lösung zur Analyse von PDF-Dateien in vier Phasen:

Phase der Einnahme— Bereiten Sie einen PDF-Dateityp vor, den Ihr Unternehmen kontinuierlich generiert (z. B. einen täglichen Betriebsbericht) und aus dem Sie regelmäßig Daten extrahieren müssen.
Phase der Verarbeitung— Extrahieren Sie die Datenwerte, die von Ihren nachgelagerten Anwendungen benötigt werden, aus den PDF-Dateien.
Phase der Datenspeicherung— Speichern Sie die extrahierten Daten als JSON-Datei in Amazon Simple Storage Service (Amazon S3) und als Datensatz in einer DynamoDB-Tabelle.
Analysephase— Erstellen Sie Dashboards in Amazon Quick, um die Daten zu visualisieren und zu analysieren.

Das Handbuch verwendet Amazon S3 zum Speichern der rohen und verarbeiteten Daten, AWS Lambdafür Berechnungen, Amazon Textract zum Extrahieren von Inhalten aus PDF-Dateien, DynamoDB zum Speichern der verarbeiteten Daten und Amazon Quick für Analysen und Visualisierungen. Dieser Leitfaden richtet sich an Datenwissenschaftler, Ingenieure für maschinelles Lernen (ML) und Lösungsarchitekten, die automatisch Informationen extrahieren und Erkenntnisse aus PDF-Dateien gewinnen möchten.

Gezielte Geschäftsergebnisse

Nach der Entwicklung einer automatisierten Lösung zur Analyse von PDF-Dateien sollten Sie mit den folgenden drei Ergebnissen rechnen AWS Cloud:

Verarbeiten Sie automatisch Rohdaten aus mehreren PDF-Dateien in großem Maßstab mithilfe einer automatisierten Lösung, die aktualisiert wird, wenn neue Daten verfügbar sind.
Downstream-Modellierungs- und Analyseanwendungen (z. B. ML-Modellierung in Amazon SageMaker AI) können auf den Inhalt der extrahierten PDF-Datei zugreifen.
Daten-Dashboards, die Ihren Endbenutzern den gesamten Inhalt von PDF-Dateien in Quick anzeigen.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Referenzarchitektur