

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Connessione alle origini dati tramite processi ETL visivi
<a name="connecting-to-data-chapter"></a>

 Durante la creazione di un nuovo processo, è possibile utilizzare le connessioni per connettersi ai dati durante la modifica dei processi visivi ETL in AWS Glue. È possibile farlo aggiungendo nodi di origine che utilizzano connettori per leggere i dati e nodi di destinazione per specificare la posizione in cui scrivere i dati. 

**Topics**
+ [Modifica delle proprietà di un nodo di origine dati](edit-jobs-source.md)
+ [Utilizzo delle tabelle del catalogo dati per l'origine dati](edit-jobs-source-catalog-tables.md)
+ [Utilizzo di un connettore per l'origine dati](edit-jobs-source-connectors.md)
+ [Utilizzo di file in Amazon S3 per l'origine dati](edit-jobs-source-s3-files.md)
+ [Utilizzo di un'origine dati di streaming](edit-jobs-source-streaming.md)
+ [Riferimenti](edit-jobs-source-references.md)

# Modifica delle proprietà di un nodo di origine dati
<a name="edit-jobs-source"></a>

Per specificare le proprietà di origine dati, è innanzitutto necessario scegliere un nodo di origine dati nel diagramma del processo. Quindi, sul lato destro nel pannello dei dettagli del nodo, puoi configurare le proprietà del nodo.

**Per modificare le proprietà di un nodo di origine dati**

1. Vai all'editor visivo per un processo nuovo o salvato.

1. Scegli un nodo di origine dati nel diagramma del processo.

1. Seleziona **Node properties** (Proprietà del nodo) nel pannello dei dettagli del nodo, quindi inserisci le seguenti informazioni:
   + **Name** (Nome): (facoltativo) immetti un nome da associare al nodo nel diagramma del processo. Questo nome deve essere univoco tra tutti i nodi per questo processo.
   + **Node type** (Tipo di nodo): il tipo di nodo determina l'azione eseguita dal nodo. Nell'elenco delle opzioni per **Node type** (Tipo di nodo), scegli uno dei valori elencati sotto l'intestazione **Data source** (Origine dati).

1. Configura le informazioni di **Data source properties** (Proprietà dell'origine dati). Per ulteriori informazioni, consulta le sezioni seguenti:
   + [Utilizzo delle tabelle del catalogo dati per l'origine dati](edit-jobs-source-catalog-tables.md)
   + [Utilizzo di un connettore per l'origine dati](edit-jobs-source-connectors.md)
   + [Utilizzo di file in Amazon S3 per l'origine dati](edit-jobs-source-s3-files.md)
   + [Utilizzo di un'origine dati di streaming](edit-jobs-source-streaming.md)

1. (Facoltativo) Dopo aver configurato le proprietà del nodo e dell'origine dati, puoi visualizzare lo schema per l'origine dati scegliendo la scheda **Output schema** (Schema di output) nel pannello dei dettagli del nodo. La prima volta che si sceglie questa scheda per qualsiasi nodo del processo, viene richiesto di fornire un ruolo IAM per accedere ai dati. Se non è stato specificato un ruolo IAM nella scheda **Job details** (Dettagli del processo), viene richiesto di immettere un ruolo IAM a questo punto.

1. (Facoltativo) Dopo aver configurato le proprietà del nodo e dell'origine dati, puoi visualizzare il set di dati dall'origine dati scegliendo la scheda **Data preview** (Anteprima dei dati) nel pannello dei dettagli del nodo. La prima volta che si sceglie questa scheda per qualsiasi nodo del processo, viene richiesto di fornire un ruolo IAM per accedere ai dati. Esiste un costo per l'utilizzo di questa caratteristica e la fatturazione inizia non appena si fornisce un ruolo IAM.

# Utilizzo delle tabelle del catalogo dati per l'origine dati
<a name="edit-jobs-source-catalog-tables"></a>

Per tutte le origini dati ad eccezione di Amazon S3 e dei connettori, è necessario che esista una tabella in AWS Glue Data Catalog per il tipo di origine scelto. AWS Glue non crea la tabella in Data Catalog.

**Per configurare un nodo di origine dati basato su una tabella del catalogo dati**

1. Vai all'editor visivo per un processo nuovo o salvato.

1. Scegli un nodo di origine dati nel diagramma del processo.

1. Seleziona la scheda **Data source properties** (Proprietà dell'origine dati), quindi immetti le informazioni riportate di seguito:
   + **S3 source type** (Tipo di origine S3): (solo per origini dati Amazon S3) scegli l'opzione **Select a Catalog table** (Seleziona una tabella del catalogo) per utilizzare una tabella di AWS Glue Data Catalog.
   + **Database**: scegli il database nel catalogo dati contenente la tabella di origine da utilizzare per questo processo. Puoi utilizzare il campo di ricerca per cercare un database per nome.
   + **Table** (Tabella): scegli dall'elenco la tabella associata ai dati di origine. Questa tabella deve esistere già in AWS Glue Data Catalog. Puoi utilizzare il campo di ricerca per cercare una tabella per nome.
   + **Partition predicate** (Predicato di partizione): (solo per origini dati Amazon S3) inserisci un'espressione booleana basata su Spark SQL che includa solo le colonne di partizionamento. Ad esempio: `"(year=='2020' and month=='04')"`
   + **Temporary directory** (Directory temporanea): (solo per le origini dati Amazon Redshift) inserisci un percorso per la posizione di una directory di processo in Amazon S3 in cui il processo ETL può scrivere risultati intermedi temporanei.
   + **Role associated with the cluster** (Ruolo associato al cluster): (solo per le origini dati Amazon Redshift) inserisci un ruolo da utilizzare per il processo ETL che contiene le autorizzazioni per i cluster Amazon Redshift . Per ulteriori informazioni, consulta [Autorizzazioni origine dati e destinazione dati](getting-started-min-privs-job.md#getting-started-min-privs-data).

# Utilizzo di un connettore per l'origine dati
<a name="edit-jobs-source-connectors"></a>

Se per **Node type** (Tipo di nodo) selezioni un connettore, segui le istruzioni in [Creazione di processi con connettori personalizzati](job-authoring-custom-connectors.md) per completare la configurazione delle proprietà dell'origine dati.

# Utilizzo di file in Amazon S3 per l'origine dati
<a name="edit-jobs-source-s3-files"></a>

Se scegli Amazon S3 come origine dati, puoi scegliere:
+ Un database e una tabella del catalogo dati.
+ Un bucket, una cartella o un file in Amazon S3.

Se utilizzi un bucket Amazon S3 come origine dati, AWS Glue rileva lo schema dei dati nella posizione specificata da uno dei file o utilizzando il file specificato come file di esempio. Il rilevamento dello schema si verifica quando si utilizza il pulsante **Infer schema** (Deduci schema). Se modifichi la posizione di Amazon S3 o il file di esempio, devi selezionare nuovamente **Infer schema** (Deduci schema) per eseguire il rilevamento dello schema utilizzando le nuove informazioni.

**Per configurare un nodo origine dati che legge direttamente dai file in Amazon S3**

1. Vai all'editor visivo per un processo nuovo o salvato.

1. Scegli un nodo di origine dati nel diagramma del processo per un'origine Amazon S3.

1. Seleziona la scheda **Data source properties** (Proprietà dell'origine dati), quindi immetti le informazioni riportate di seguito:
   + **S3 source type ** (Tipo di origine S3): (solo per origini dati Amazon S3) scegli l'opzione **S3 location** (Posizione S3).
   + **S3 URL** (URL S3): inserisci il percorso del bucket, della cartella o del file Amazon S3 che contiene i dati per il processo. Puoi scegliere **Browse S3** (Sfoglia S3) per selezionare il percorso dalle posizioni disponibili per il tuo account. 
   + **Recursive (Ricorsiva)**: scegli questa opzione se vuoi che AWS Glue legga i dati dai file nelle cartelle figlio nella posizione S3. 

     Se le cartelle figlio contengono dati partizionati, AWS Glue non aggiunge le informazioni di partizione specificate nei nomi delle cartelle al Data Catalog. Considera, ad esempio, le seguenti cartelle in Amazon S3:

     ```
     S3://sales/year=2019/month=Jan/day=1
     S3://sales/year=2019/month=Jan/day=2
     ```

     Scegliendo **Recursive (Ricorsiva)** e selezionando `sales` come posizione S3, AWS Glue legge i dati in tutte le cartelle figlio, ma non crea partizioni per anno, mese o giorno.
   + **Data format** (Formato dei dati): scegli il formato in cui sono memorizzati i dati. Puoi scegliere JSON, CSV o Parquet. Il valore selezionato indica al processo AWS Glue come leggere i dati dal file di origine.
**Nota**  
Se non selezioni il formato dei dati corretto, AWS Glue potrebbe dedurre lo schema correttamente, ma il processo non sarà in grado di analizzare correttamente i dati dal file di origine.

     Puoi immettere opzioni di configurazione aggiuntive, a seconda del formato scelto. 
     + **JSON** (notazione di JavaScript oggetti)
       + **JsonPath**: Immettete un percorso JSON che punti a un oggetto utilizzato per definire uno schema di tabella. Le espressioni di percorso JSON fanno sempre riferimento a una struttura JSON nello stesso modo in cui le XPath espressioni vengono utilizzate in combinazione con un documento XML. L' "oggetto membro root" nel percorso JSON è sempre indicato come `$`, anche se si tratta di un oggetto o di una matrice. È possibile scrivere il percorso JSON in notazione punto o in notazione parentesi.

         Per ulteriori informazioni sul percorso JSON, consultate il [JsonPath](https://github.com/json-path/JsonPath)sito Web. GitHub
       + **Records in source files can span multiple lines** (I registri nei file di origine possono estendersi su più righe): seleziona questa opzione se un singolo registro può estendersi su più righe nel file CSV.
     + **CSV** (valori separati da virgola)
       + **Delimiter** (Delimitatore): immetti un carattere per indicare il separatore di ogni voce di colonna nella riga, ad esempio `;` o `,`.
       + **Escape character** (Carattere di escape): immetti un carattere utilizzato come carattere di escape. Questo carattere indica che il carattere che segue immediatamente il carattere di escape deve essere preso alla lettera e non deve essere interpretato come un delimitatore.
       + **Quote character** (Carattere virgolette): immetti il carattere utilizzato per raggruppare stringhe separate in un singolo valore. Ad esempio, devi scegliere **Double quote (")** (virgolette doppie ["]) se nel file CSV sono presenti valori `"This is a single value"`.
       + **Records in source files can span multiple lines** (I registri nei file di origine possono estendersi su più righe): seleziona questa opzione se un singolo registro può estendersi su più righe nel file CSV.
       + **First line of source file contains column headers** (La prima riga del file di origine contiene le intestazioni di colonna): scegli questa opzione se la prima riga del file CSV contiene intestazioni di colonna anziché dati.
     + **Parquet** (storage a colonne Apache Parquet)

       Non ci sono impostazioni aggiuntive da configurare per i dati memorizzati in formato Parquet.
     + **Apache Hudi**

       Non ci sono impostazioni aggiuntive da configurare per i dati memorizzati in formato Apache Hudi.
     + **Delta Lake**

       Non ci sono impostazioni aggiuntive da configurare per i dati memorizzati in formato Delta Lake.
     + **Excel**

       Non ci sono impostazioni aggiuntive da configurare per i dati memorizzati in formato Excel.
   + **Partition predicate** (Predicato di partizione): per partizionare i dati letti dall'origine dati, inserisci un'espressione booleana basata su Spark SQL che includa solo le colonne di partizionamento. Ad esempio: `"(year=='2020' and month=='04')"`
   + **Advanced options (Opzioni avanzate)**: espandi questa sezione se vuoi che AWS Glue rilevi lo schema dei dati in base a un file specifico. 
     + **Schema inference (Deduzione dello schema)**: seleziona l'opzione **Choose a sample file from S3 (Scegli un file di esempio da S3)** se vuoi utilizzare un file specifico invece di lasciare che AWS Glue scelga un file. La deduzione dello schema non è disponibile per l'origine Excel.
     + **Auto-sampled file** (File con campionatura automatica): inserisci il percorso del file in Amazon S3 da utilizzare per dedurre lo schema.

     Se stai apportando modifiche a un nodo dell'origine dati e al file di esempio selezionato, scegli **Reload schema** (Ricarica schema) per rilevare lo schema utilizzando il nuovo file di esempio.

1. Seleziona il pulsante **Infer schema** (Seleziona schema) per rilevare lo schema dai file di origine in Amazon S3. Se modifichi la posizione di Amazon S3 o il file di esempio, devi selezionare nuovamente **Infer schema** (Deduci schema) per rilevare lo schema utilizzando le nuove informazioni.

# Utilizzo di un'origine dati di streaming
<a name="edit-jobs-source-streaming"></a>

È possibile creare processi in streaming di estrazione, trasformazione e caricamento (ETL) che vengono eseguiti continuamente e consumano dati da origini di streaming in Amazon Kinesis Data Streams, Apache Kafka e Amazon Streaming gestito per Apache Kafka (Amazon MSK).

**Per configurare le proprietà per un'origine dati di streaming**

1. Vai all'editor grafico visivo per un processo nuovo o salvato.

1. Scegli un nodo origine dati nel grafico per Kafka o Kinesis Data Streams.

1. Seleziona la scheda **Data source properties** (Proprietà dell'origine dati), quindi immetti le informazioni riportate di seguito:

------
#### [ Kinesis ]
   + **Kinesis source type (Tipo sorgente Kinesis)**: scegli l'opzione **Stream details (Dettagli streaming)** per utilizzare l'accesso diretto alla sorgente di streaming o **Data Catalog table (Tabella Data Catalog)** per utilizzare invece le informazioni archiviate in questa posizione.

     Se scegli **Stream details (Dettagli streaming)**, specifica le seguenti informazioni aggiuntive.
     + **Posizione del flusso di dati**: scegli se il flusso di dati è associato all'utente corrente o se è associato a un altro utente.
     + **Regione**: scegli Regione AWS dove esiste lo stream. Queste informazioni vengono utilizzate per costruire l'ARN per l'accesso al flusso di dati.
     + **Stream ARN (ARN del flusso di dati)**: l'Amazon Resource Name (ARN) per l'endpoint del flusso di dati Kinesis. Se il flusso di dati si trova nell'account corrente, è possibile selezionarne il nome dall'elenco a discesa. Puoi utilizzare il campo di ricerca per cercare un flusso dei dati per nome o per ARN.
     + **Data format (Formato dei dati)**: scegli il formato utilizzato dal flusso di dati dall'elenco. 

       AWS Glue rileva automaticamente lo schema dai dati in streaming.

     Se scegli **Data Catalog table (Tabella Data Catalog)**, specifica le seguenti informazioni aggiuntive.
     + **Database**: (facoltativo) scegli il database nel Data Catalog di AWS Glue che contiene la tabella associata all'origine dati in streaming. Puoi utilizzare il campo di ricerca per cercare un database per nome. 
     + **Table** (Tabella): (facoltativo) scegli dall'elenco la tabella associata ai dati di origine. Questa tabella deve esistere già nel AWS Glue Data Catalog. Puoi utilizzare il campo di ricerca per cercare una tabella per nome. 
     + **Detect schema (Rileva schema)**: scegli questa opzione per permettere ad AWS Glue Glue Studio di rilevare lo schema dai dati di streaming, anziché archiviare le informazioni sullo schema in una tabella di Data Catalog. Se scegli l'opzione **Stream details (Dettagli streaming)**, questa opzione è abilitata automaticamente.
   + **Starting position (Posizione di inizio)**: per impostazione predefinita, il processo ETL utilizza l'opzione **Earliest (Primo)**, il che significa che legge i dati a partire dal registro più vecchio disponibile nel flusso di dati. Puoi invece scegliere **Latest (Più recente)**, che indica che il processo ETL dovrebbe iniziare a leggere subito dopo il registro più recente nel flusso di dati.
   + **Window size** (Dimensione finestra): per impostazione predefinita, il processo ETL elabora e scrive i dati in finestre di 100 secondi. Ciò consente di elaborare i dati in modo efficiente e di eseguire aggregazioni su dati che arrivano più tardi del previsto. Puoi modificare questa dimensione della finestra per aumentare la tempestività o la precisione dell'aggregazione. 

     AWS Glue i lavori di streaming utilizzano i checkpoint anziché i segnalibri di lavoro per tenere traccia dei dati che sono stati letti. 
   + **Connection options (Opzioni di connessione)**: espandi questa sezione per aggiungere coppie chiave-valore per specificare opzioni di connessione aggiuntive. Per informazioni sulle opzioni che è possibile specificare qui, consulta ["connectionType": "kinesis"](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-connect.html#aws-glue-programming-etl-connect-kinesis) nella *Guida per gli sviluppatori di AWS Glue *.

------
#### [ Kafka ]
   + **Apache Kafka source (Origine Apache Kafka)**: scegli l'opzione **Stream details (Dettagli streaming)** per utilizzare l'accesso diretto alla sorgente di streaming o **Data Catalog table (Tabella Data Catalog)** per utilizzare invece le informazioni archiviate in questa posizione.

     Se scegli **Data Catalog table (Tabella Data Catalog)**, specifica le seguenti informazioni aggiuntive.
     + **Database**: (facoltativo) scegli il database nel Data Catalog di AWS Glue che contiene la tabella associata all'origine dati in streaming. Puoi utilizzare il campo di ricerca per cercare un database per nome. 
     + **Table** (Tabella): (facoltativo) scegli dall'elenco la tabella associata ai dati di origine. Questa tabella deve esistere già nel AWS Glue Data Catalog. Puoi utilizzare il campo di ricerca per cercare una tabella per nome. 
     + **Detect schema (Rileva schema)**: scegli questa opzione per permettere ad AWS Glue di rilevare lo schema dai dati di streaming, anziché archiviare le informazioni sullo schema in una tabella di Data Catalog. Se scegli l'opzione **Stream details (Dettagli streaming)**, questa opzione è abilitata automaticamente.

     Se scegli **Stream details (Dettagli streaming)**, specifica le seguenti informazioni aggiuntive.
     + **Connection name (Nome della connessione)**: scegli la connessione AWS Glue che contiene le informazioni di accesso e autenticazione per il flusso dei dati Kafka. È necessario utilizzare una connessione con le origini dati in streaming di Kafka. Se non esiste una connessione, per creare una connessione per il flusso di dati Kafka è possibile utilizzare la console AWS Glue.
     + **Topic name (Nome argomento)**: inserisci il nome dell'argomento da cui leggere.
     + **Data format (Formato dei dati)**: scegli il formato da utilizzare durante la lettura dei dati dal flusso di eventi Kafka. 
   + **Starting position (Posizione di inizio)**: per impostazione predefinita, il processo ETL utilizza l'opzione **Earliest (Primo)**, il che significa che legge i dati a partire dal registro più vecchio disponibile nel flusso di dati. Puoi invece scegliere **Latest (Più recente)**, che indica che il processo ETL dovrebbe iniziare a leggere subito dopo il registro più recente nel flusso di dati.
   + **Window size** (Dimensione finestra): per impostazione predefinita, il processo ETL elabora e scrive i dati in finestre di 100 secondi. Ciò consente di elaborare i dati in modo efficiente e di eseguire aggregazioni su dati che arrivano più tardi del previsto. Puoi modificare questa dimensione della finestra per aumentare la tempestività o la precisione dell'aggregazione. 

     I processi di streaming AWS Glue utilizzano i checkpoint anziché i segnalibri di processo per tenere traccia dei dati letti. 
   + **Connection options (Opzioni di connessione)**: espandi questa sezione per aggiungere coppie chiave-valore per specificare opzioni di connessione aggiuntive. Per informazioni sulle opzioni che è possibile specificare qui, consulta ["connectionType": "kafka"](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-connect.html#aws-glue-programming-etl-connect-kafka) nella *Guida per gli sviluppatori di AWS Glue *.

------

**Nota**  
Le anteprime dei dati non sono attualmente supportate per le origini dati di streaming.

# Riferimenti
<a name="edit-jobs-source-references"></a>

 **Best practice** 
+  [Crea una pipeline di servizi ETL per caricare i dati in modo incrementale da Amazon S3 all'utilizzo Amazon RedshiftAWS Glue](https://docs.aws.amazon.com/prescriptive-guidance/latest/patterns/build-an-etl-service-pipeline-to-load-data-incrementally-from-amazon-s3-to-amazon-redshift-using-aws-glue.html) 

 **Programmazione ETL** 
+  [Tipi e opzioni di connessione per ETL in AWS Glue](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-connections.html) 
+  [ Valori di connectionType JDBC ](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-connect.html#aws-glue-programming-etl-connect-jdbc) 
+  [Opzioni avanzate per lo spostamento dei dati da e verso Amazon Redshift](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-redshift.html) 