Creare uno schema esterno e una tabella esterna Aggiungere una vista con associazione tardiva che crea un riferimento per una tabella di data lake a un’unità di condivisione dati Aggiungere una tabella di data lake direttamente a un’unità di condivisione dati Note per l’utilizzo per l’aggiunta di oggetti di data lake a un’unità di condivisione dati Considerazioni sulla fatturazione per l’aggiunta di oggetti del data lake a un’unità di condivisione dati

Aggiunta di tabelle di data lake a un’unità di condivisione dati

Con un datashare, un produttore di dati può condividere in modo sicuro oggetti di database con granularità fine, come schemi e tabelle, con i consumatori nello stesso account o in account diversi. AWS Il producer può anche condividere oggetti tra Regioni. Questo argomento descrive come aggiungere oggetti da un data lake, in particolare dal catalogo dati, a un AWS Glue datashare. Supporta due casi d’uso:

Aggiunta di una vista con associazione tardiva a un’unità di condivisione dati che fa riferimento a una tabella di un data lake: questa operazione è utile per un consumer in quanto la configurazione preliminare, come la definizione delle autorizzazioni per i dati di origine esterna, ad esempio con Lake Formation, è probabilmente già completata. Un ulteriore vantaggio è che una vista aggiunta a un’unità di condivisione dati può effettuare il join delle tabelle di data lake con le tabelle native di Redshift.
Aggiunta di una tabella da uno schema esterno direttamente in un’unità di condivisione dati: in questo modo gli oggetti del data lake sono disponibili per i consumer senza livelli o logiche aggiuntivi. I consumer possono eseguire query sulla tabella o effettuarne il join con le tabelle sul consumer.

Questi casi si applicano dopo aver fatto riferimento a una tabella dal catalogo AWS dati in Redshift utilizzando CREATE EXTERNAL SCHEMA. Qualsiasi tabella del catalogo AWS dati può essere la fonte.

Nota

Le tabelle Data Lake che aggiungi a un datashare possono includere tabelle registrate con Lake Formation e tabelle del catalogo AWS Glue dati.

Creare uno schema esterno e una tabella esterna

Crea uno schema esterno e una tabella esterna per aggiungerli all’unità di condivisione dati nelle sezioni seguenti. Queste fasi sono preliminari. Se lo hai già fatto, puoi ignorare questa sezione.

Sul producer crea uno schema esterno che faccia riferimento ai dati del data lake archiviati in Amazon S3. Lo schema esterno fa riferimento al AWS Glue Data Catalog. Il ruolo e la Regione nell’esempio sono esempi:
```
CREATE EXTERNAL SCHEMA external_schema_name FROM DATA CATALOG
DATABASE 'glue_database_name'
IAM_ROLE 'arn:aws:iam::123456789012:role/sample-role'
REGION 'us-east-1';
```
Crea una tabelle di data lake nello schermo esterno.
```
CREATE EXTERNAL TABLE external_schema_name.sales(
salesid INTEGER,
sellerid INTEGER,
buyerid INTEGER,
saledate DATE,
pricepaid DECIMAL(8,2))
ROW FORMAT delimited
FIELDS TERMINATED BY '\t'
STORED AS textfile
LOCATION 's3://redshift-downloads/tickit/spectrum/sales/';
```
L’esempio include LOCATION. Deve essere nel formato s3://{bucket_name}/{folder}/, dove è specificata la cartella. La cartella deve essere lunga almeno un carattere. Facoltativamente puoi includere le sottocartelle. Per vedere altri esempi di creazione di tabelle in un data lake, consulta Esempi per CREATE EXTERNAL TABLE.

Nota
La condivisione è supportata solo per le tabelle in cui il ruolo IAM sul producer ha accesso SELECT per la tabella.

Aggiungere una vista con associazione tardiva che crea un riferimento per una tabella di data lake a un’unità di condivisione dati

Quando si creano tabelle basate su uno schema esterno dal catalogo AWS dati e si desidera aggiungerle a un datashare, il modo più comune per farlo è aggiungere una vista Redshift late-binding che faccia riferimento alla tabella creata, che contiene i dati del data lake. Di seguito sono descritte le fasi della procedura:

Crea una vista con associazione tardiva che faccia riferimento alla tabella esterna creata in precedenza:
```
CREATE VIEW lbv AS 
select * from external_schema_name.sales, other_schema.t1
WITH NO SCHEMA BINDING;
```
Aggiungi lo schema della vista all’unità di condivisione dati. Questo è lo schema locale che contiene la vista con associazione tardiva.
```
ALTER DATASHARE dsx_datashare ADD SCHEMA public;
```
Aggiungi lo schema che contiene la tabella a cui fa riferimento la vista con associazione tardiva all’unità di condivisione dati. L’aggiunta dello schema è necessaria per qualsiasi tabella di base a cui fai riferimento in una vista aggiunta a un’unità di condivisione dati, indipendentemente dal fatto che lo schema contenga oggetti di database locali oppure oggetti provenienti da un data lake. Tieni presente che devi aggiungere questo schema prima di aggiungere la vista con associazione tardiva.
```
ALTER DATASHARE dsx_datashare ADD SCHEMA external_schema_name;
ALTER DATASHARE dsx_datashare ADD SCHEMA other_schema;
```
Aggiungi la vista all’unità di condivisione dati utilizzando un comando SQL. Tieni presente che il nome della tabella include il prefisso dello schema.
```
ALTER DATASHARE my_datashare ADD TABLE public.lbv;
```
Conferma che la vista e gli schemi sono stati aggiunti correttamente all’unità di condivisione dati:
```
SELECT * FROM svv_datashare_objects WHERE share_name = 'my_datashare';
```
L’amministratore consumer crea un database dall’unità di condivisione dati e quindi ne concede l’utilizzo agli utenti consumer.

Dopo avere completato le fasi, gli utenti consumer del database con accesso alla visualizzazione dell’unità di condivisione dati possono eseguire query sui dati.

Aggiungere una tabella di data lake direttamente a un’unità di condivisione dati

L’aggiunta di una tabella in uno schema esterno a un’unità di condivisione dati è simile all’aggiunta di una vista. Ciò è utile nel caso in cui un consumer desideri eseguire query sulla tabella del data lake nello stato originale o desideri effettuarne il join con le tabelle del data warehouse consumer. Le fasi seguenti mostrano come aggiungere una tabella di data lake a un’unità di condivisione dati con SQL.

Crea uno schema esterno e una tabella esterna, come descritto nella prima sezione di questo argomento.
Scopri le tabelle esistenti nello schema esterno per confermare che la tabella che hai creato è disponibile:
```
SELECT * FROM svv_external_tables WHERE schemaname = 'external_schema_name';
```

Aggiungi lo schema esterno all’unità di condivisione dati:


ALTER DATASHARE my_datashare ADD SCHEMA external_schema_name;

Aggiungi la tabella esterna all’unità di condivisione dati. Tieni presente che il nome della tabella include il prefisso dello schema:
```
ALTER DATASHARE my_datashare ADD TABLE external_schema_name.sales;
```
Conferma che la tabella è stata aggiunta correttamente all’unità di condivisione dati:
```
SELECT * FROM svv_datashare_objects WHERE share_name = 'my_datashare';
```
Per istruzioni più dettagliate, consulta Condivisione dell'accesso in lettura ai dati all'interno di un account. AWS
Sul consumer, ossia il database che riceve i dati condivisi, l’amministratore associa l’unità di condivisione dati per rendere disponibili le tabelle condivise su cui gli utenti possono eseguire le query. Per ulteriori informazioni su come completare questa fase, consulta Gestione delle unità di condivisione dati da altri account in qualità di consumer.

Dopo che gli amministratori hanno completato le fasi, gli utenti del database sul consumer possono scrivere query per recuperare i dati dalla tabella condivisa ed effettuarne il join con altre tabelle sul consumer.

Note per l’utilizzo per l’aggiunta di oggetti di data lake a un’unità di condivisione dati

Ci sono diversi elementi da tenere in considerazione quando utilizzi tabelle e viste da un data lake in un’unità di condivisione dati:

Registrazione con AWS CloudTrail: l'account del produttore di dati può utilizzare AWS CloudTrail i log per verificare quando viene effettuato l'accesso alle tabelle del data lake condivise tramite un datashare:
- Utilizzo dei dati di registro per controllare l'accesso ai dati: CloudTrail i log registrano i dettagli su chi accede alle tabelle condivise, inclusi i produttori e i consumatori di datashare Redshift. Gli identificatori sono disponibili nel campo sotto i log. ExternalId AssumeRole CloudTrail Il proprietario dei dati può configurare ulteriori limitazioni all’accesso ai dati in una policy IAM mediante azioni. Per ulteriori informazioni sulla definizione dell'accesso ai dati tramite le politiche, consulta Accesso agli AWS account di proprietà di terze parti.
Sicurezza e autorizzazioni per i consumer: per le tabelle registrate di Lake Formation, le risorse Amazon S3 sono protette da Lake Formation e rese disponibili utilizzando le credenziali fornite da Lake Formation.

Considerazioni sulla fatturazione per l’aggiunta di oggetti del data lake a un’unità di condivisione dati

Di seguito vengono descritti in dettaglio come vengono attribuiti i costi per la memorizzazione e la scansione degli oggetti del data lake in un’unità di condivisione dati:

Quando un consumer esegue query sugli oggetti condivisi di un data lake, il costo della scansione viene fatturato al consumer.
- Quando il consumatore è un cluster con provisioning RA3 o DC2, Redshift utilizza Redshift Spectrum per scansionare i dati di Amazon S3. Pertanto il costo di Spectrum viene fatturato sull’account del consumer.
- Se il consumatore è un cluster con provisioning RG, non è previsto alcun addebito separato per Spectrum, in quanto le query del data lake vengono eseguite sull'elaborazione del cluster, fatturata con i prezzi di elaborazione RG in base all'ora dei nodi.
- Quando il consumer è un gruppo di lavoro Amazon Redshift serverless, per Spectrum non è previsto alcun costo separato.
I costi di archiviazione e le operazioni di Amazon S3, come i bucket di elenchi, vengono fatturati sull’account proprietario di ogni bucket Amazon S3.

Per ulteriori dettagli sulla fatturazione per Amazon Redshift serverless, consulta Fatturazione per Amazon Redshift serverless. Ulteriori informazioni sulla fatturazione e sui prezzi sono disponibili nella pagina Prezzi di Amazon Redshift.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Utilizzo delle viste

Condivisione dei dati tra Account AWS