Projetando uma solução automatizada para analisar arquivos PDF no Nuvem AWS

Tianxia Jia e Yanyan Zhang, da Amazon Web Services ()AWS

Outubro de 2021 (histórico do documento)

As organizações usam regularmente arquivos PDF para armazenar e transferir diferentes tipos de dados, incluindo texto, tabelas e formulários. No entanto, pode ser difícil agregar e analisar automaticamente dados de diferentes arquivos PDF. Por exemplo, o aplicativo comercial de uma organização pode ingerir regularmente diferentes arquivos PDF com um formato idêntico, mas que os usuários devem abrir e ler individualmente. Isso significa que os usuários têm dificuldade em gerar informações úteis a partir desses arquivos PDF e precisam extrair manualmente os dados relevantes e usar ferramentas de terceiros para análises adicionais.

Na nuvem Amazon Web Services (AWS), o Amazon Textract extrai automaticamente informações (por exemplo, texto impresso, formulários e tabelas) de arquivos PDF e produz um arquivo formatado em JSON que contém informações do arquivo PDF original. Durante o pós-processamento, os dados extraídos são armazenados no Amazon DynamoDB e você pode gerar insights de negócios usando análises e visualizações no Amazon Quick.

Este guia fornece uma solução automatizada e sem servidor para análise de arquivos PDF em quatro fases:

Fase de ingestão— Prepare um tipo de arquivo PDF que sua organização gera continuamente (por exemplo, um relatório diário de operações) e do qual você precisa extrair dados regularmente.
Fase de processamento— Extraia os valores de dados exigidos por seus aplicativos downstream dos arquivos PDF.
Fase de armazenamento de dados— Armazene os dados extraídos como um arquivo JSON no Amazon Simple Storage Service (Amazon S3) e como um registro em uma tabela do DynamoDB.
Fase de análise— Crie painéis no Amazon Quick para visualizar e ajudar a analisar os dados.

O guia usa o Amazon S3 para armazenar os dados brutos e processados, AWS Lambdapara computação, o Amazon Textract para extrair conteúdo de arquivos PDF, o DynamoDB para armazenar os dados processados e o Amazon Quick para análise e visualizações. Este guia é destinado a cientistas de dados, engenheiros de aprendizado de máquina (ML) e arquitetos de soluções que desejam extrair informações automaticamente e gerar insights a partir de arquivos PDF.

Resultados de negócios desejados

Você deve esperar os três resultados a seguir depois de criar uma solução automatizada para analisar arquivos PDF no Nuvem AWS:

Processe automaticamente dados brutos de vários arquivos PDF em grande escala usando uma solução automatizada que é atualizada quando novos dados são disponibilizados.
Aplicativos de modelagem e análise downstream (por exemplo, modelagem de ML na Amazon SageMaker AI) podem acessar o conteúdo extraído do arquivo PDF.
Painéis de dados que mostram todo o conteúdo do arquivo PDF para seus usuários finais no Quick.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Arquitetura de referência