Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Inserire i dati nel AWS Glue Data Catalog
Puoi creare cataloghi federati in AWS Glue Data Catalog (Data Catalog) e unificare i dati tra i data lake Amazon S3 e i data warehouse Amazon Redshift. Puoi anche integrare i dati dei tuoi database operativi come Amazon DynamoDB e fonti di dati di terze parti come PostgreSQL, BigQuery Google, MySQL, tra le altre. Il Data Catalog fornisce un archivio centralizzato di metadati che semplifica la gestione e la scoperta dei dati su sistemi diversi.
Il Data Catalog si integra con oltre 30 fonti di dati esterne tramite connettori federati. Con questa integrazione, puoi interrogare i dati da queste fonti esterne senza dover creare pipeline di dati in cui inserire prima i dati. AWS
Dopo aver catalogato i dati esterni, puoi utilizzarli AWS Lake Formation per gestire centralmente le autorizzazioni di accesso ai dati nel Data Catalog. Gli amministratori di Data Lake possono concedere autorizzazioni di accesso granulari ad altri principali IAM (utenti o ruoli) all'interno dello stesso account o tra più account. I responsabili IAM possono quindi interrogare i dati utilizzando vari AWS servizi come Athena, Amazon EMR o Redshift Spectrum.
Il Data Catalog fornisce i seguenti metodi per gestire i dati e le autorizzazioni su set di dati esterni e metastore esterni:
-
Importa i dati nei data warehouse di Amazon Redshift in AWS Glue Data Catalog: registra un namespace o un cluster Amazon Redshift esistente con Data Catalog e crea un catalogo federato a più livelli nel Data Catalog.
Puoi accedere ai tuoi dati utilizzando qualsiasi motore di query compatibile con le specifiche OpenAPI del catalogo REST di Apache Iceberg, come Amazon EMR Serverless e Amazon Athena.
-
Entra nel Data Catalog da fonti di dati esterne: collega il Data Catalog a fonti di dati esterne utilizzando AWS Glue connessioni e crea cataloghi federati per gestire centralmente le autorizzazioni di accesso sui set di dati utilizzando Lake Formation. Non è necessaria alcuna migrazione dei metadati nel Data Catalog.
-
Integra i bucket Amazon S3 Table con Data Catalog (Preview): puoi pubblicare e catalogare le tabelle Amazon S3 come oggetti Data Catalog e registrare il catalogo come posizione dati di Lake Formation dalla console di Lake Formation o utilizzando le operazioni API. AWS Glue
-
Crea cataloghi per gestire le tabelle Amazon Redshift nel Data Catalog: potresti non avere un cluster di produttori Amazon Redshift o un datashare Amazon Redshift disponibile oggi, ma desideri creare e gestire tabelle Amazon Redshift utilizzando Data Catalog. Puoi iniziare creando un catalogo AWS Glue gestito utilizzando il funzionamento dell'
glue:CreateCatalog
API o la AWS Lake Formation console impostando il tipo di catalogo comeManaged
eCatalog source
come Redshift. -
Pubblica le condivisioni di dati Amazon Redshift con Data Catalog: pubblica le condivisioni di dati Amazon Redshift su Data Catalog e usa Lake Formation per gestire centralmente l'accesso ai dati delle condivisioni di dati e limitare l'accesso degli utenti.
Puoi interrogare i tuoi dati utilizzando Amazon Redshift Spectrum.
-
Connetti Data Catalog a metastore Hive esterni: collega il Data Catalog a metastore esterni per gestire le autorizzazioni di accesso ai set di dati in Amazon S3 utilizzando Lake Formation. Non è necessaria alcuna migrazione dei metadati nel Data Catalog.
-
Integra Lake Formation con AWS Data Exchange: Lake Formation supporta la concessione di licenze di accesso ai tuoi dati tramite AWS Data Exchange. Se desideri concedere in licenza i tuoi dati di Lake Formation, consulta Cosa c'è AWS Data Exchange nella Guida AWS Data Exchange per l'utente.
Argomenti
Inserimento dei dati di Amazon Redshift nel AWS Glue Data Catalog
Federazione in fonti di dati esterne in AWS Glue Data Catalog
Creazione di un catalogo Amazon S3 Tables nel AWS Glue Data Catalog
Creazione di un catalogo gestito di Amazon Redshift nel AWS Glue Data Catalog
Gestione delle autorizzazioni per i dati in un datashare Amazon Redshift
Gestione delle autorizzazioni sui set di dati che utilizzano metastore esterni