

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Progettazione di una soluzione automatizzata per analizzare i file PDF sul Cloud AWS
<a name="welcome"></a>

*Tianxia Jia e Yanyan Zhang, Amazon Web Services ()AWS*

*Ottobre 2021* ([cronologia](doc-history.md) dei documenti)

Organizations utilizza regolarmente i file PDF per archiviare e trasferire diversi tipi di dati, tra cui testo, tabelle e moduli. Tuttavia, può essere difficile aggregare e analizzare automaticamente i dati di diversi file PDF. Ad esempio, l'applicazione aziendale di un'organizzazione potrebbe importare regolarmente diversi file PDF con un formato identico, ma che gli utenti devono aprire e leggere singolarmente. Ciò significa che gli utenti hanno difficoltà a generare informazioni utili da tali file PDF e devono estrarre manualmente i dati pertinenti e utilizzare strumenti di terze parti per ulteriori analisi. 

Sul cloud Amazon Web Services (AWS), [Amazon Textract](https://docs.aws.amazon.com//textract/latest/dg/what-is.html) estrae automaticamente le informazioni (ad esempio testo stampato, moduli e tabelle) dai file PDF e produce un file in formato JSON che contiene informazioni dal file PDF originale. [Durante la post-elaborazione, i dati estratti vengono archiviati in [Amazon DynamoDB](https://docs.aws.amazon.com//amazondynamodb/latest/developerguide/Introduction.html) e puoi generare informazioni aziendali utilizzando analisi e visualizzazioni in Amazon Quick.](https://docs.aws.amazon.com//quicksight/latest/user/welcome.html) 

Questa guida fornisce una soluzione automatizzata di analisi dei file PDF senza server in quattro fasi:
+ [Fase di ingestione](ingestion-phase.md)— Prepara un tipo di file PDF che l'organizzazione genera continuamente (ad esempio, un rapporto operativo giornaliero) e da cui estrarre regolarmente i dati.
+ [Fase di elaborazione](processing-phase.md)— Estrai i valori dei dati richiesti dalle applicazioni downstream dai file PDF. 
+ [Fase di archiviazione dei dati](storage-phase.md)— Archivia i dati estratti come file JSON in Amazon [Simple Storage Service (Amazon S3) e come](https://docs.aws.amazon.com//AmazonS3/latest/userguide/Welcome.html) record in una tabella DynamoDB. 
+ [Fase di analisi](analysis-phase.md)— Crea dashboard in Amazon Quick per visualizzare e analizzare i dati.

[La guida utilizza [Amazon S3](https://docs.aws.amazon.com//amazonglacier/latest/dev/introduction.html) per archiviare i dati grezzi ed elaborati, [AWS Lambda](https://docs.aws.amazon.com//lambda/latest/dg/welcome.html)per l'elaborazione, [Amazon Textract per estrarre contenuti dai](https://docs.aws.amazon.com//textract/latest/dg/what-is.html) file PDF, DynamoDB per [archiviare i dati elaborati e Amazon Quick](https://docs.aws.amazon.com//amazondynamodb/latest/developerguide/Introduction.html) per analisi e visualizzazioni.](https://docs.aws.amazon.com//quicksight/latest/user/welcome.html) Questa guida è destinata ai data scientist, agli ingegneri di machine learning (ML) e agli architetti di soluzioni che desiderano estrarre automaticamente informazioni e generare approfondimenti dai file PDF.

## Obiettivi aziendali specifici
<a name="targeted-business-outcomes"></a>

Dopo aver progettato una soluzione automatizzata per l'analisi dei file PDF su: Cloud AWS
+ Elabora automaticamente i dati grezzi da più file PDF su larga scala utilizzando una soluzione automatizzata che si aggiorna quando diventano disponibili nuovi dati.
+ Le applicazioni di modellazione e analisi downstream (ad esempio, la modellazione ML in [Amazon SageMaker AI](https://docs.aws.amazon.com//sagemaker/latest/dg/whatis.html)) possono accedere al contenuto del file PDF estratto. 
+ Dashboard di dati che mostrano tutti i contenuti dei file PDF agli utenti finali in Quick.