

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Usa formati di archiviazione colonnare
<a name="columnar-storage"></a>

[Apache Parquet](https://parquet.apache.org) e [ORC](https://orc.apache.org/) sono formati di archiviazione colonnari ottimizzati per il recupero rapido dei dati e utilizzati nelle applicazioni analitiche. AWS 

I formati di archiviazione colonnare presentano le seguenti caratteristiche, che li rendono ideali per l'utilizzo con Athena: 
+ *Compressione per colonna, con algoritmo di compressione selezionato per il tipo di dati della colonna* per risparmiare spazio di archiviazione in Amazon S3 e ridurre lo spazio su disco e I/O durante l'elaborazione delle query.
+ *Pushdown dei predicati* in Parquet e ORC, che consente alle query Athena di recuperare solo i blocchi necessari migliorandone così le prestazioni. Quando una query Athena ottiene valori di colonna specifici dai dati, utilizza le statistiche dei predicati dei blocchi di dati, come i max/min valori, per determinare se leggere o ignorare il blocco. 
+ *Frazionamento dei dati* in Parquet e ORC, che consente ad Athena di frazionare la lettura dei dati su più lettori e aumentare il parallelismo durante l'elaborazione delle query. 

Per convertire i dati grezzi esistenti da altri formati di archiviazione in Parquet o ORC, puoi eseguire le query [CREATE TABLE AS SELECT (CTAS)](ctas.md) in Athena e specificare un formato di archiviazione dei dati come Parquet o ORC, oppure utilizzare il Crawler. AWS Glue 

## Scegli tra Parquet e ORC
<a name="columnar-storage-choosing"></a>

La scelta tra ORC (Optimized Row Columnar) e Parquet dipende dai requisiti di uso specifico.

Apache Parquet offre efficienti schemi di compressione e codifica dei dati ed è ideale per eseguire query complesse ed elaborare grandi quantità di dati. Parquet è ottimizzato per l'uso con [Apache Arrow](https://arrow.apache.org/), il che può essere vantaggioso se utilizzi strumenti correlati ad Arrow.

ORC offre un modo efficiente per archiviare i dati Hive. I file ORC sono spesso di dimensioni inferiori rispetto ai file Parquet e gli indici ORC possono velocizzare l'esecuzione di query. Inoltre, ORC supporta tipi complessi come strutture, mappe ed elenchi.

Quando scegli tra Parquet e ORC, valuta quanto segue:

**Prestazioni delle query**: poiché Parquet supporta una serie più ampia di tipi di query, Parquet potrebbe essere la scelta migliore se intendi eseguire query complesse. 

**Tipi di dati complessi**: se utilizzi tipi di dati complessi, ORC potrebbe essere la scelta migliore in quanto supporta una serie più ampia di tipi di dati complessi.

**Dimensioni dei file**: se lo spazio su disco è un problema, ORC di solito produce file di dimensioni inferiori, il che può ridurre i costi di archiviazione.

**Compressione**: sia Parquet sia ORC offrono una buona compressione, ma il formato migliore per te può dipendere dal caso d'uso specifico.

**Evoluzione**: sia Parquet che ORC supportano l'evoluzione di schema, il che significa che puoi aggiungere, rimuovere o modificare colonne nel tempo.

Sia Parquet che ORC sono buone scelte per le applicazioni di big data, ma valuta i requisiti del tuo scenario prima di prendere una decisione. Puoi eseguire benchmark sui tuoi dati e sulle tue query per stabilire quale formato offre prestazioni migliori per il tuo caso d'uso.

## Converti in formati colonnari
<a name="convert-to-columnar"></a>

Le opzioni per convertire facilmente i dati di origine come JSON o CSV in un formato colonnare includono l'utilizzo di query [CREATE TABLE AS](ctas.md) o l'esecuzione di processi in AWS Glue.
+ È possibile utilizzare query `CREATE TABLE AS` (CTAS) per convertire i dati in Parquet o ORC in un unico passaggio. Per un esempio, consulta [Esempio: scrittura di risultati della query in un formato diverso](https://docs.aws.amazon.com/athena/latest/ug/ctas-examples.html#ctas-example-format) nella pagina [Esempi di query CTAS](ctas-examples.md).
+ Per informazioni sull’utilizzo di Athena per ETL per trasformare i dati da CSV a Parquet, consultare [Utilizzare CTAS e INSERT INTO per ETL e analisi dei dati](ctas-insert-into-etl.md). 
+ Per informazioni sull'esecuzione di un AWS Glue processo per trasformare i dati CSV in Parquet, consulta la sezione «Trasformare i dati dal formato CSV al formato Parquet» nel post del blog AWS Big Data [Build a data lake foundation with AWS Glue and Amazon S3](https://aws.amazon.com/blogs/big-data/build-a-data-lake-foundation-with-aws-glue-and-amazon-s3/). AWS Glue supporta l'utilizzo della stessa tecnica per convertire i dati CSV in ORC o i dati JSON in Parquet o ORC.