

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Projetando uma solução automatizada para analisar arquivos PDF no Nuvem AWS
<a name="welcome"></a>

*Tianxia Jia e Yanyan Zhang, da Amazon Web Services ()AWS*

*Outubro de 2021* ([histórico do documento](doc-history.md))

As organizações usam regularmente arquivos PDF para armazenar e transferir diferentes tipos de dados, incluindo texto, tabelas e formulários. No entanto, pode ser difícil agregar e analisar automaticamente dados de diferentes arquivos PDF. Por exemplo, o aplicativo comercial de uma organização pode ingerir regularmente diferentes arquivos PDF com um formato idêntico, mas que os usuários devem abrir e ler individualmente. Isso significa que os usuários têm dificuldade em gerar informações úteis a partir desses arquivos PDF e precisam extrair manualmente os dados relevantes e usar ferramentas de terceiros para análises adicionais. 

Na nuvem Amazon Web Services (AWS), o [Amazon Textract](https://docs.aws.amazon.com//textract/latest/dg/what-is.html) extrai automaticamente informações (por exemplo, texto impresso, formulários e tabelas) de arquivos PDF e produz um arquivo formatado em JSON que contém informações do arquivo PDF original. [Durante o pós-processamento, os dados extraídos são armazenados no [Amazon DynamoDB](https://docs.aws.amazon.com//amazondynamodb/latest/developerguide/Introduction.html) e você pode gerar insights de negócios usando análises e visualizações no Amazon Quick.](https://docs.aws.amazon.com//quicksight/latest/user/welcome.html) 

Este guia fornece uma solução automatizada e sem servidor para análise de arquivos PDF em quatro fases:
+ [Fase de ingestão](ingestion-phase.md)— Prepare um tipo de arquivo PDF que sua organização gera continuamente (por exemplo, um relatório diário de operações) e do qual você precisa extrair dados regularmente.
+ [Fase de processamento](processing-phase.md)— Extraia os valores de dados exigidos por seus aplicativos downstream dos arquivos PDF. 
+ [Fase de armazenamento de dados](storage-phase.md)— Armazene os dados extraídos como um arquivo JSON no Amazon [Simple Storage Service (Amazon](https://docs.aws.amazon.com//AmazonS3/latest/userguide/Welcome.html) S3) e como um registro em uma tabela do DynamoDB. 
+ [Fase de análise](analysis-phase.md)— Crie painéis no Amazon Quick para visualizar e ajudar a analisar os dados.

[O guia usa o [Amazon S3](https://docs.aws.amazon.com//amazonglacier/latest/dev/introduction.html) para armazenar os dados brutos e processados, [AWS Lambda](https://docs.aws.amazon.com//lambda/latest/dg/welcome.html)para computação, o [Amazon](https://docs.aws.amazon.com//textract/latest/dg/what-is.html) Textract para extrair conteúdo de arquivos PDF, o DynamoDB para armazenar os dados processados e o Amazon [Quick para](https://docs.aws.amazon.com//amazondynamodb/latest/developerguide/Introduction.html) análise e visualizações.](https://docs.aws.amazon.com//quicksight/latest/user/welcome.html) Este guia é destinado a cientistas de dados, engenheiros de aprendizado de máquina (ML) e arquitetos de soluções que desejam extrair informações automaticamente e gerar insights a partir de arquivos PDF.

## Resultados de negócios desejados
<a name="targeted-business-outcomes"></a>

Você deve esperar os três resultados a seguir depois de criar uma solução automatizada para analisar arquivos PDF no Nuvem AWS: 
+ Processe automaticamente dados brutos de vários arquivos PDF em grande escala usando uma solução automatizada que é atualizada quando novos dados são disponibilizados.
+ Aplicativos de modelagem e análise downstream (por exemplo, modelagem de ML na [Amazon SageMaker AI](https://docs.aws.amazon.com//sagemaker/latest/dg/whatis.html)) podem acessar o conteúdo extraído do arquivo PDF. 
+ Painéis de dados que mostram todo o conteúdo do arquivo PDF para seus usuários finais no Quick.