As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Projetando uma solução automatizada para analisar arquivos PDF no Nuvem AWS
Tianxia Jia e Yanyan Zhang, da Amazon Web Services ()AWS
Outubro de 2021 (histórico do documento)
As organizações usam regularmente arquivos PDF para armazenar e transferir diferentes tipos de dados, incluindo texto, tabelas e formulários. No entanto, pode ser difícil agregar e analisar automaticamente dados de diferentes arquivos PDF. Por exemplo, o aplicativo comercial de uma organização pode ingerir regularmente diferentes arquivos PDF com um formato idêntico, mas que os usuários devem abrir e ler individualmente. Isso significa que os usuários têm dificuldade em gerar informações úteis a partir desses arquivos PDF e precisam extrair manualmente os dados relevantes e usar ferramentas de terceiros para análises adicionais.
Na nuvem Amazon Web Services (AWS), o Amazon Textract extrai automaticamente informações (por exemplo, texto impresso, formulários e tabelas) de arquivos PDF e produz um arquivo formatado em JSON que contém informações do arquivo PDF original. Durante o pós-processamento, os dados extraídos são armazenados no Amazon DynamoDB e você pode gerar insights de negócios usando análises e visualizações no Amazon Quick.
Este guia fornece uma solução automatizada e sem servidor para análise de arquivos PDF em quatro fases:
-
Fase de ingestão— Prepare um tipo de arquivo PDF que sua organização gera continuamente (por exemplo, um relatório diário de operações) e do qual você precisa extrair dados regularmente.
-
Fase de processamento— Extraia os valores de dados exigidos por seus aplicativos downstream dos arquivos PDF.
-
Fase de armazenamento de dados— Armazene os dados extraídos como um arquivo JSON no Amazon Simple Storage Service (Amazon S3) e como um registro em uma tabela do DynamoDB.
-
Fase de análise— Crie painéis no Amazon Quick para visualizar e ajudar a analisar os dados.
O guia usa o Amazon S3 para armazenar os dados brutos e processados, AWS Lambdapara computação, o Amazon Textract para extrair conteúdo de arquivos PDF, o DynamoDB para armazenar os dados processados e o Amazon Quick para análise e visualizações. Este guia é destinado a cientistas de dados, engenheiros de aprendizado de máquina (ML) e arquitetos de soluções que desejam extrair informações automaticamente e gerar insights a partir de arquivos PDF.
Resultados de negócios desejados
Você deve esperar os três resultados a seguir depois de criar uma solução automatizada para analisar arquivos PDF no Nuvem AWS:
-
Processe automaticamente dados brutos de vários arquivos PDF em grande escala usando uma solução automatizada que é atualizada quando novos dados são disponibilizados.
-
Aplicativos de modelagem e análise downstream (por exemplo, modelagem de ML na Amazon SageMaker AI) podem acessar o conteúdo extraído do arquivo PDF.
-
Painéis de dados que mostram todo o conteúdo do arquivo PDF para seus usuários finais no Quick.