Diseño de una solución automatizada para analizar los archivos PDF en Nube de AWS

Tianxia Jia y Yanyan Zhang, Amazon Web Services ()AWS

Octubre de 2021 (historial del documento)

Las organizaciones suelen utilizar archivos PDF para almacenar y transferir diferentes tipos de datos, incluidos textos, tablas y formularios. Sin embargo, puede resultar difícil agregar y analizar automáticamente los datos de diferentes archivos PDF. Por ejemplo, la aplicación empresarial de una organización puede incorporar normalmente diferentes archivos PDF con un formato idéntico, pero que los usuarios deben abrir y leer de forma individual. Esto significa que a los usuarios les resulta difícil generar información útil a partir de esos archivos PDF y deben extraer manualmente los datos relevantes y utilizar herramientas de terceros para analizarlos más a fondo.

En la nube de Amazon Web Services (AWS), Amazon Textract extrae automáticamente la información (por ejemplo, texto impreso, formularios y tablas) de los archivos PDF y produce un archivo con formato JSON que contiene información del archivo PDF original. Durante el posprocesamiento, los datos extraídos se almacenan en Amazon DynamoDB y puede generar información empresarial mediante análisis y visualizaciones en Amazon Quick.

Esta guía proporciona una solución de análisis de archivos PDF automatizada y sin servidor en cuatro fases:

Fase de ingestión— Prepare un tipo de archivo PDF que su organización genere continuamente (por ejemplo, un informe de operaciones diario) y del que necesite extraer datos con regularidad.
Fase de procesamiento— Extraiga de los archivos PDF los valores de datos necesarios para sus aplicaciones posteriores.
Fase de almacenamiento de datos— Almacene los datos extraídos como un archivo JSON en Amazon Simple Storage Service (Amazon S3) y como un registro en una tabla de DynamoDB.
Fase de análisis— Cree paneles en Amazon Quick para visualizar y analizar los datos.

La guía utiliza Amazon S3 para almacenar los datos sin procesar y procesados AWS Lambdapara el procesamiento, Amazon Textract para extraer el contenido de los archivos PDF, DynamoDB para almacenar los datos procesados y Amazon Quick para el análisis y las visualizaciones. Esta guía está destinada a científicos de datos, ingenieros de aprendizaje automático (ML) y arquitectos de soluciones que desean extraer automáticamente información y generar información a partir de archivos PDF.

Resultados empresariales específicos

Tras diseñar una solución automatizada para analizar los archivos PDF en Nube de AWS:

Procese automáticamente datos sin procesar de varios archivos PDF a escala mediante una solución automatizada que se actualiza cuando hay nuevos datos disponibles.
Las aplicaciones de modelado y análisis posteriores (por ejemplo, el modelado de aprendizaje automático en Amazon SageMaker AI) pueden acceder al contenido del archivo PDF extraído.
Paneles de datos que muestran todo el contenido de los archivos PDF a los usuarios finales en Quick.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Arquitectura de referencia