Amazon DataZone quickstart con i dati di AWS Glue - Amazon DataZone

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Amazon DataZone quickstart con i dati di AWS Glue

Completa i seguenti passaggi di avvio rapido per eseguire i flussi di lavoro completi di produttori di dati e consumatori di dati in Amazon DataZone con dati di esempio di AWS Glue.

Fase 1: creare il DataZone dominio Amazon e il portale dati

Questa sezione descrive i passaggi per creare un DataZone dominio Amazon e un portale dati per questo flusso di lavoro.

Completa la seguente procedura per creare un DataZone dominio Amazon. Per ulteriori informazioni sui DataZone domini Amazon, consulta DataZone Terminologia e concetti di Amazon.

  1. Accedi alla DataZone console Amazon all'indirizzo https://console.aws.amazon.com/datazone, accedi e scegli Crea dominio.

    Nota

    Se desideri utilizzare un DataZone dominio Amazon esistente per questo flusso di lavoro, scegli Visualizza domini, quindi scegli il dominio che desideri utilizzare e quindi procedi alla Fase 2 della creazione di un progetto di pubblicazione.

  2. Nella pagina Crea dominio, fornisci i valori per i seguenti campi:

    • Nome: specifica un nome per il tuo dominio. Ai fini di questo flusso di lavoro, puoi chiamare questo dominio Marketing.

    • Descrizione: specifica una descrizione del dominio opzionale.

    • Crittografia dei dati: per impostazione predefinita, i dati vengono crittografati con una chiave che AWS possiede e gestisce per te. In questo caso d'uso, puoi lasciare le impostazioni di crittografia dei dati predefinite.

      Per ulteriori informazioni sull'utilizzo delle chiavi gestite dai clienti, consultaCrittografia dei dati a riposo per Amazon DataZone. Se utilizzi la tua chiave KMS per la crittografia dei dati, devi includere la seguente dichiarazione come predefinitaAmazonDataZoneDomainExecutionRole.

      { "Version": "2012-10-17", "Statement": [ { "Sid": "Statement1", "Effect": "Allow", "Action": [ "kms:Decrypt", "kms:DescribeKey", "kms:GenerateDataKey" ], "Resource": [ "arn:<partition>:kms:<region>:<account-id>:key/<key-id>" ] } ] }
    • Accesso al servizio: lascia invariata l'opzione Usa un ruolo predefinito selezionata per impostazione predefinita.

      Nota

      Se utilizzi un DataZone dominio Amazon esistente per questo flusso di lavoro, puoi scegliere l'opzione Usa un ruolo di servizio esistente e quindi scegliere un ruolo esistente dal menu a discesa.

    • In Configurazione rapida, scegli Configura questo account per il consumo e la pubblicazione dei dati. Questa opzione abilita i DataZone blueprint Amazon integrati di Data lake e Data warehouse e configura le autorizzazioni, le risorse, un progetto predefinito e i profili di ambiente data lake e data warehouse predefiniti per questo account. Per ulteriori informazioni sui DataZone blueprint di Amazon, consulta DataZone Terminologia e concetti di Amazon.

    • Mantieni invariati i campi rimanenti sotto i dettagli delle autorizzazioni.

      Nota

      Se disponi di un DataZone dominio Amazon esistente, puoi scegliere l'opzione Usa un ruolo di servizio esistente e quindi scegliere un ruolo esistente dal menu a discesa per il ruolo Glue Manage Access, il ruolo Redshift Manage Access e il ruolo Provisioning.

    • Mantieni invariati i campi sotto i tag.

    • Scegli Crea dominio.

  3. Una volta creato correttamente il dominio, scegli questo dominio e nella pagina di riepilogo del dominio, annota l'URL del portale dati per questo dominio. Puoi utilizzare questo URL per accedere al tuo portale DataZone dati Amazon e completare il resto dei passaggi di questo flusso di lavoro. Puoi anche accedere al portale dati scegliendo Open data portal.

Nota

Nell'attuale versione di Amazon DataZone, una volta creato il dominio, l'URL generato per il portale dati non può essere modificato.

Il completamento della creazione del dominio può richiedere diversi minuti. Attendi che lo stato del dominio sia Disponibile prima di procedere al passaggio successivo.

Fase 2 - Creare il progetto di pubblicazione

Questa sezione descrive i passaggi necessari per creare il progetto di pubblicazione per questo flusso di lavoro.

  1. Dopo aver completato il passaggio 1 precedente e aver creato un dominio, vedrai il messaggio Benvenuto su Amazon DataZone! finestra. In questa finestra, scegli Crea progetto.

  2. Specificate il nome del progetto, ad esempio, per questo flusso di lavoro, potete assegnargli un nome SalesDataPublishingProject, quindi lasciare invariati gli altri campi e quindi scegliere Crea.

Fase 3 - Creare l'ambiente

Questa sezione descrive i passaggi necessari per creare un ambiente per questo flusso di lavoro.

  1. Una volta completato il passaggio 2 precedente e aver creato il progetto, verrà visualizzata la finestra Il progetto è pronto per l'uso. In questa finestra, scegli Crea ambiente.

  2. Nella pagina Crea ambiente, specifica quanto segue e quindi scegli Crea ambiente.

  3. Specificate i valori per quanto segue:

    • Nome: specifica il nome dell'ambiente. Per questa procedura dettagliata, puoi chiamarla. Default data lake environment

    • Descrizione: specifica una descrizione per l'ambiente.

    • Profilo ambientale: scegli il profilo DataLakeProfiledell'ambiente. Ciò ti consente di utilizzare Amazon DataZone in questo flusso di lavoro per lavorare con i dati in Amazon S3, AWS Glue Catalog e Amazon Athena.

    • Per questa procedura dettagliata, mantieni invariati gli altri campi.

  4. Seleziona Create environment (Crea ambiente).

Fase 4 - Produrre dati per la pubblicazione

Questa sezione descrive i passaggi necessari per produrre dati da pubblicare in questo flusso di lavoro.

  1. Una volta completato il passaggio 3 precedente, nel SalesDataPublishingProject progetto, nel pannello di destra, in Strumenti di analisi, scegli Amazon Athena. Questo apre l'editor di query Athena utilizzando le credenziali del progetto per l'autenticazione. Assicurati che il tuo ambiente di pubblicazione sia selezionato nel menu a discesa DataZone dell'ambiente Amazon e che il <environment_name>%_pub_db database sia selezionato come nell'editor di query.

  2. Per questa procedura dettagliata, stai utilizzando lo script di query Create Table as Select (CTAS) per creare una nuova tabella da pubblicare su Amazon. DataZone Nel tuo editor di query, esegui questo script CTAS per creare una mkt_sls_table tabella da pubblicare e rendere disponibile per la ricerca e l'abbonamento.

    CREATE TABLE mkt_sls_table AS SELECT 146776932 AS ord_num, 23 AS sales_qty_sld, 23.4 AS wholesale_cost, 45.0 as lst_pr, 43.0 as sell_pr, 2.0 as disnt, 12 as ship_mode,13 as warehouse_id, 23 as item_id, 34 as ctlg_page, 232 as ship_cust_id, 4556 as bill_cust_id UNION ALL SELECT 46776931, 24, 24.4, 46, 44, 1, 14, 15, 24, 35, 222, 4551 UNION ALL SELECT 46777394, 42, 43.4, 60, 50, 10, 30, 20, 27, 43, 241, 4565 UNION ALL SELECT 46777831, 33, 40.4, 51, 46, 15, 16, 26, 33, 40, 234, 4563 UNION ALL SELECT 46779160, 29, 26.4, 50, 61, 8, 31, 15, 36, 40, 242, 4562 UNION ALL SELECT 46778595, 43, 28.4, 49, 47, 7, 28, 22, 27, 43, 224, 4555 UNION ALL SELECT 46779482, 34, 33.4, 64, 44, 10, 17, 27, 43, 52, 222, 4556 UNION ALL SELECT 46779650, 39, 37.4, 51, 62, 13, 31, 25, 31, 52, 224, 4551 UNION ALL SELECT 46780524, 33, 40.4, 60, 53, 18, 32, 31, 31, 39, 232, 4563 UNION ALL SELECT 46780634, 39, 35.4, 46, 44, 16, 33, 19, 31, 52, 242, 4557 UNION ALL SELECT 46781887, 24, 30.4, 54, 62, 13, 18, 29, 24, 52, 223, 4561

    Assicurati che la tabella mkt_sls_table sia stata creata correttamente nella sezione Tabelle e viste sul lato sinistro. Ora hai una risorsa di dati che può essere pubblicata nel DataZone catalogo Amazon.

Passaggio 5: raccogliere i metadati da AWS Glue

Questa sezione descrive la fase di raccolta dei metadati da AWS Glue per questo flusso di lavoro.

  1. Una volta completato il passaggio 4 precedente, nel portale DataZone dati Amazon, scegli il SalesDataPublishingProject progetto, quindi scegli la scheda Dati e quindi scegli Origini dati nel pannello a sinistra.

  2. Scegli la fonte che è stata creata come parte del processo di creazione dell'ambiente.

  3. Scegli Esegui accanto al menu a discesa Azione, quindi scegli il pulsante Aggiorna. Una volta completata l'esecuzione dell'origine dati, le risorse vengono aggiunte all' DataZone inventario Amazon.

Passaggio 6: cura e pubblica la risorsa di dati

Questa sezione descrive le fasi di cura e pubblicazione della risorsa di dati in questo flusso di lavoro.

  1. Una volta completato il passaggio 5 precedente, nel portale DataZone dati di Amazon, scegli il SalesDataPublishingProject progetto che hai creato nel passaggio precedente, scegli la scheda Dati, scegli Dati di inventario nel pannello a sinistra e individua la mkt_sls_table tabella.

  2. Apri la pagina dei dettagli dell'mkt_sls_tableasset per visualizzare i nomi aziendali generati automaticamente. Scegliete l'icona Metadati generati automaticamente per visualizzare i nomi generati automaticamente per le risorse e le colonne. Puoi accettare o rifiutare ogni nome singolarmente o scegliere Accetta tutto per applicare i nomi generati. Facoltativamente, puoi anche aggiungere il modulo di metadati disponibile alla tua risorsa e selezionare i termini del glossario per classificare i dati.

  3. Scegliete Pubblica risorsa per pubblicare la risorsa. mkt_sls_table

Fase 7 - Creazione del progetto per l'analisi dei dati

Questa sezione descrive le fasi di creazione del progetto per l'analisi dei dati. Questo è l'inizio delle fasi relative al consumo di dati di questo flusso di lavoro.

  1. Una volta completato il passaggio 6 precedente, nel portale DataZone dati Amazon, scegli Crea progetto dal menu a discesa Progetto.

  2. Nella pagina Crea progetto, specifica il nome del progetto, ad esempio, per questo flusso di lavoro, puoi assegnargli un nome MarketingDataAnalysisProject, quindi lascia invariati gli altri campi e quindi scegli Crea.

Fase 8 - Creare un ambiente per l'analisi dei dati

Questa sezione descrive le fasi di creazione di un ambiente per l'analisi dei dati.

  1. Una volta completato il passaggio 7 precedente, nel portale DataZone dati Amazon, scegli il MarketingDataAnalysisProject progetto, quindi scegli la scheda Ambienti e quindi scegli Crea ambiente.

  2. Nella pagina Crea ambiente, specifica quanto segue e quindi scegli Crea ambiente.

    • Nome: specifica il nome dell'ambiente. Per questa procedura dettagliata, puoi chiamarla. Default data lake environment

    • Descrizione: specifica una descrizione per l'ambiente.

    • Profilo ambientale: scegli il profilo DataLakeProfileambientale integrato.

    • Per questa procedura dettagliata, mantieni invariato il resto dei campi.

Passaggio 9: cerca nel catalogo dati e iscriviti ai dati

Questa sezione descrive i passaggi per la ricerca nel catalogo dati e la sottoscrizione ai dati.

  1. Una volta completato il passaggio 8 precedente, nel portale DataZone dati di Amazon, scegli l' DataZoneicona Amazon e, nel campo Amazon DataZone Search, cerca gli asset di dati utilizzando parole chiave (ad esempio, «catalogo» o «vendite») nella barra di ricerca del portale dati.

    Se necessario, applica filtri o ordinamenti e, una volta individuato l'asset Product Sales Data, puoi sceglierlo per aprire la pagina dei dettagli della risorsa.

  2. Nella pagina dei dettagli della risorsa Catalog Sales Data, scegliete Iscriviti.

  3. Nella finestra di dialogo Iscriviti, scegli il tuo progetto MarketingDataAnalysisProjectconsumer dal menu a discesa, quindi specifica il motivo della richiesta di abbonamento e quindi scegli Iscriviti.

Passaggio 10: approva la richiesta di abbonamento

Questa sezione descrive i passaggi per l'approvazione della richiesta di abbonamento.

  1. Una volta completato il passaggio 9 precedente, nel portale DataZone dati di Amazon, scegli il SalesDataPublishingProjectprogetto con cui hai pubblicato la tua risorsa.

  2. Scegli la scheda Dati, quindi Dati pubblicati, quindi scegli Richieste in arrivo.

  3. Ora puoi vedere la riga relativa alla nuova richiesta che richiede un'approvazione. Scegli Visualizza richiesta. Fornisci un motivo per l'approvazione e scegli Approva.

Passaggio 11: creare una query e analizzare i dati in Amazon Athena

Ora che hai pubblicato con successo una risorsa nel DataZone catalogo Amazon e ti sei abbonato, puoi analizzarla.

  1. Nel portale DataZone dati di Amazon, scegli il tuo progetto MarketingDataAnalysisProjectconsumer e poi, dal pannello di destra, in Strumenti di analisi, scegli il link Query data with Amazon Athena. Questo apre l'editor di query di Amazon Athena utilizzando le credenziali del progetto per l'autenticazione. Scegli l'ambiente MarketingDataAnalysisProjectconsumer dal menu a discesa Amazon DataZone Environment nell'editor di query, quindi scegli il tuo progetto <environment_name>%sub_db dal menu a discesa del database.

  2. Ora puoi eseguire query sulla tabella degli abbonati. È possibile scegliere la tabella tra Tabelle e viste, quindi scegliere Anteprima per visualizzare l'istruzione select nella schermata dell'editor. Esegui la query per vedere i risultati.