Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
AWS Glue: Come funziona
AWS Glue utilizza altri AWS servizi per orchestrare i processi ETL (estrazione, trasformazione e caricamento) per creare data warehouse e data lake e generare flussi di output. AWS Gluechiama le operazioni API per trasformare i dati, creare log di runtime, archiviare la logica dei processi e creare notifiche per aiutarti a monitorare le esecuzioni dei processi. La console AWS Glue si connette a questi servizi in un'applicazione gestita, in modo che tu possa concentrarti sulla creazione e sul monitoraggio del lavoro ETL. La console esegue le operazioni amministrative e di sviluppo del processo per tuo conto. Devi fornire le credenziali e altre proprietà a AWS Glue per accedere alle origini dati e scrivere nelle destinazioni dati.
AWS Glue si occupa di effettuare il provisioning delle risorse necessarie per l'esecuzione del carico di lavoro e di gestire tali risorse. Non devi creare l'infrastruttura per uno strumento ETL, perché l'operazione viene eseguita da AWS Glue. Quando sono necessarie risorse, per ridurre i tempi di avvio, AWS Glue usa un'istanza del pool di istanze attivo per eseguire il carico di lavoro.
Con AWS Glue crei i processi usando le definizioni di tabella nel catalogo dati. I lavori sono costituiti da script che contengono le istruzioni per eseguire le attività di trasformazione dei dati desiderate. Per avviare i processi, in base a una pianificazione o come risultato di un evento specificato, potrai utilizzare i trigger. Puoi decidere dove conservare i dati dell'obiettivo e quale origine dati popola l'obiettivo. In base agli input, AWS Glue trasforma i dati dal formato di origine a quello di destinazione. In alternativa, puoi anche fornire script personalizzati nella AWS Glue console o nell'API per elaborare i dati in base alle tue esigenze specifiche.
Origini dati e destinazioni
AWS Glue per Spark consente di leggere e scrivere dati da più sistemi e database, tra cui:
-
Amazon S3
-
Amazon DynamoDB
-
Amazon Redshift
-
Amazon Relational Database Service (Amazon RDS)
-
Database accessibili da JDBC di terze parti
-
MongoDB e Amazon DocumentDB (compatibile con MongoDB)
-
Altri connettori del marketplace e plug-in Apache Spark
Flussi dei dati
AWS Glue per Spark può trasmettere dati dai seguenti sistemi:
-
Flusso di dati Amazon Kinesis
-
Apache Kafka
AWS Glue è disponibile in diverse AWS regioni. Per ulteriori informazioni, consulta la sezione relativa a regioni ed endpoint AWS nella Riferimenti generali di Amazon Web Services.
Argomenti
Processi ETL serverless eseguiti in isolamento
AWS Glue esegue i processi ETL in un ambiente serverless con un motore a scelta tra Spark e Ray. AWS Glue esegue questi processi su risorse virtuali di cui effettua il provisioning e che gestisce nel proprio account di servizio.
AWS Glue ha gli scopi seguenti:
Isolare i dati dei clienti.
Proteggere i dati dei clienti in transito e quelli memorizzati.
Accedere ai dati dei clienti solo in risposta alle richieste dei clienti, utilizzando le credenziali contestuali e temporanee o con il consenso del cliente ai ruoli IAM nel suo account.
Durante il provisioning di un processo ETL, fornisci origini dati di input e destinazioni dati di output nel Virtual Private Cloud (VPC). Inoltre, puoi fornire il ruolo IAM, l'ID VPC, l'ID sottorete e il gruppo di sicurezza che sono necessari per accedere alle origini dati e alle destinazioni. Per ogni tupla (ID account cliente, ruolo IAM, ID di sottorete e gruppo di sicurezza), AWS Glue crea un nuovo ambiente isolato a livello di rete e di gestione da tutti gli altri ambienti all'interno dell'account di AWS Glue servizio.
Puoi creare e configurare AWS Glue risorse, come cataloghi di dati, lavori e crawler all'interno del tuo account. AWS Queste risorse vengono quindi associate al ruolo IAM e alle impostazioni di rete (sottorete e gruppo di sicurezza) specificate durante il processo di creazione.
AWS Glue crea interfacce di rete elastiche nella sottorete usando indirizzi IP privati. I processi utilizzano queste interfacce di rete elastiche per accedere alle origini dati e alle destinazioni dati. Il traffico in uscita e all'interno dell'ambiente di esecuzione del processo è regolato dal VPC e dalle policy di rete con un'eccezione: le chiamate effettuate alle librerie AWS Glue possono indirizzare il traffico verso operazioni API AWS Glue tramite il VPC AWS Glue. Tutte le chiamate API AWS Glue vengono registrate, pertanto i proprietari dei dati possono controllare l'accesso API abilitando AWS CloudTrail, che fornisce i log di controllo all'account.
AWS Gluegli ambienti gestiti che eseguono i processi ETL sono protetti con le stesse pratiche di sicurezza seguite da altri AWS servizi. Per una panoramica delle pratiche e delle responsabilità condivise in materia di sicurezza, consultate il white paper Introduzione ai processi AWS di sicurezza.