Diseño de una solución automatizada para analizar los archivos PDF en Nube de AWS - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Diseño de una solución automatizada para analizar los archivos PDF en Nube de AWS

Tianxia Jia y Yanyan Zhang, Amazon Web Services ()AWS

Octubre de 2021 (historial del documento)

Las organizaciones suelen utilizar archivos PDF para almacenar y transferir diferentes tipos de datos, incluidos textos, tablas y formularios. Sin embargo, puede resultar difícil agregar y analizar automáticamente los datos de diferentes archivos PDF. Por ejemplo, la aplicación empresarial de una organización puede incorporar normalmente diferentes archivos PDF con un formato idéntico, pero que los usuarios deben abrir y leer de forma individual. Esto significa que a los usuarios les resulta difícil generar información útil a partir de esos archivos PDF y deben extraer manualmente los datos relevantes y utilizar herramientas de terceros para analizarlos más a fondo.

En la nube de Amazon Web Services (AWS), Amazon Textract extrae automáticamente la información (por ejemplo, texto impreso, formularios y tablas) de los archivos PDF y produce un archivo con formato JSON que contiene información del archivo PDF original. Durante el posprocesamiento, los datos extraídos se almacenan en Amazon DynamoDB y puede generar información empresarial mediante análisis y visualizaciones en Amazon Quick.

Esta guía proporciona una solución de análisis de archivos PDF automatizada y sin servidor en cuatro fases:

La guía utiliza Amazon S3 para almacenar los datos sin procesar y procesados AWS Lambdapara el procesamiento, Amazon Textract para extraer el contenido de los archivos PDF, DynamoDB para almacenar los datos procesados y Amazon Quick para el análisis y las visualizaciones. Esta guía está destinada a científicos de datos, ingenieros de aprendizaje automático (ML) y arquitectos de soluciones que desean extraer automáticamente información y generar información a partir de archivos PDF.

Resultados empresariales específicos

Tras diseñar una solución automatizada para analizar los archivos PDF en Nube de AWS:

  • Procese automáticamente datos sin procesar de varios archivos PDF a escala mediante una solución automatizada que se actualiza cuando hay nuevos datos disponibles.

  • Las aplicaciones de modelado y análisis posteriores (por ejemplo, el modelado de aprendizaje automático en Amazon SageMaker AI) pueden acceder al contenido del archivo PDF extraído.

  • Paneles de datos que muestran todo el contenido de los archivos PDF a los usuarios finales en Quick.