Come funzionano le viste materializzate con AWS Aderenza Prerequisiti Configurazione di Spark per l'utilizzo di viste materializzate Creazione di viste materializzate Invio di query alle viste materializzate Aggiornamento delle viste materializzate Gestione delle viste materializzate Autorizzazioni per le viste materializzate Monitoraggio delle operazioni di visualizzazione materializzata Esempio: flusso di lavoro completo Considerazioni e limitazioni

Utilizzo di viste materializzate con AWS Aderenza

AWS La versione 5.1 e successive di Glue supporta la creazione e la gestione delle viste materializzate di Apache Iceberg nel AWS Glue Data Catalog. Una vista materializzata è una tabella gestita che memorizza il risultato precalcolato di una query SQL in formato Apache Iceberg e si aggiorna in modo incrementale man mano che le tabelle di origine sottostanti cambiano. È possibile utilizzare le viste materializzate per semplificare le pipeline di trasformazione dei dati e accelerare le prestazioni delle query per carichi di lavoro analitici complessi.

Quando crei una vista materializzata utilizzando Spark in AWS Glue, la definizione della vista e i metadati vengono archiviati nel AWS Glue Data Catalog. I risultati precalcolati vengono archiviati come tabelle Apache Iceberg in bucket Amazon S3 Tables o bucket Amazon S3 per uso generico all'interno del tuo account. Il AWS Glue Data Catalog monitora automaticamente le tabelle dei sorgenti e aggiorna le viste materializzate utilizzando un'infrastruttura di elaborazione gestita.

Argomenti

Come funzionano le viste materializzate con AWS Aderenza
Prerequisiti
Configurazione di Spark per l'utilizzo di viste materializzate
Creazione di viste materializzate
Invio di query alle viste materializzate
Aggiornamento delle viste materializzate
Gestione delle viste materializzate
Autorizzazioni per le viste materializzate
Monitoraggio delle operazioni di visualizzazione materializzata
Esempio: flusso di lavoro completo
Considerazioni e limitazioni

Come funzionano le viste materializzate con AWS Aderenza

Le viste materializzate si integrano con AWS Glue tramite il supporto Iceberg di Apache Spark nei notebook Glue AWS job e AWS Glue Studio. Quando configuri la sessione Spark per utilizzare il AWS Glue Data Catalog, puoi creare viste materializzate utilizzando la sintassi SQL standard. L'ottimizzatore Spark può riscrivere automaticamente le query per utilizzare le viste materializzate quando offrono prestazioni migliori, eliminando la necessità di modificare manualmente il codice dell'applicazione.

Il AWS Glue Data Catalog gestisce tutti gli aspetti operativi della manutenzione delle viste materializzate, tra cui:

Rilevamento delle modifiche nelle tabelle dei sorgenti utilizzando il livello di metadati di Apache Iceberg
Pianificazione ed esecuzione di operazioni di aggiornamento utilizzando il calcolo Spark gestito
Determinare se eseguire un aggiornamento completo o incrementale in base alle modifiche dei dati
Memorizzazione dei risultati precalcolati in formato Apache Iceberg per l'accesso a più motori

Puoi interrogare le viste materializzate da AWS Glue usando le stesse interfacce SQL Spark che usi per le tabelle normali. I dati precalcolati sono accessibili anche da altri servizi, tra cui Amazon Athena e Amazon Redshift.

Prerequisiti

Per utilizzare le viste materializzate con AWS Glue, è necessario:

Un account AWS
AWS Glue versione 5.1 o successiva
Tabelle di origine in formato Apache Iceberg registrate nel AWS Glue Data Catalog
Un bucket S3 Tables o un bucket S3 generico per l'archiviazione di dati di viste materializzate
Un ruolo IAM con autorizzazioni per accedere a AWS Glue Data Catalog e Amazon S3
Autorizzazioni configurate utilizzando uno dei seguenti modelli:
- Solo policy IAM: il tuo ruolo IAM richiede CreateTable le autorizzazioni sul database AWS Glue e l'accesso in lettura alle tabelle di base (GetTables sul catalogo AWS Glue e l'accesso in lettura alle posizioni S3 sottostanti). Non è richiesta alcuna AWS Lake Formation configurazione.
- AWS Lake Formation— Se lo utilizzi già AWS Lake Formation per governare il tuo data lake, configura AWS Lake Formation le autorizzazioni sulle tabelle di origine e sui database di destinazione e registra il tuo bucket S3 con. AWS Lake Formation

Configurazione di Spark per l'utilizzo di viste materializzate

Per creare e gestire le viste materializzate in AWS Glue, configura la tua sessione Spark con le estensioni Iceberg e le impostazioni del catalogo richieste. Il metodo di configurazione varia a seconda che si utilizzino i lavori AWS Glue o i notebook AWS Glue Studio.

Configurazione AWS Glue jobs

Quando create o aggiornate un lavoro AWS Glue, aggiungete i seguenti parametri di configurazione come parametri del lavoro:

Per i bucket S3 Tables



job = glue.create_job(
    Name='materialized-view-job',
    Role='arn:aws:iam::111122223333:role/GlueServiceRole',
    Command={
        'Name': 'glueetl',
        'ScriptLocation': 's3://amzn-s3-demo-bucket/scripts/mv-script.py',
        'PythonVersion': '3'
    },
    DefaultArguments={
        '--enable-glue-datacatalog': 'true',
        '--conf': 'spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions '
        '--conf spark.sql.catalog.glue_catalog=org.apache.iceberg.spark.SparkCatalog '
                  '--conf spark.sql.catalog.glue_catalog.type=glue '
                  '--conf spark.sql.catalog.glue_catalog.warehouse=s3://amzn-s3-demo-bucket/warehouse '
                  '--conf spark.sql.catalog.glue_catalog.glue.region=us-east-1 '
                  '--conf spark.sql.catalog.glue_catalog.glue.id=111122223333 '
                  '--conf spark.sql.catalog.glue_catalog.glue.account-id=111122223333 '
                  '--conf spark.sql.catalog.s3t_catalog=org.apache.iceberg.spark.SparkCatalog '
                  '--conf spark.sql.catalog.s3t_catalog.type=glue '
                  '--conf spark.sql.catalog.s3t_catalog.glue.id=111122223333:s3tablescatalog/my-table-bucket '
                  '--conf spark.sql.catalog.s3t_catalog.glue.account-id=111122223333 '
                  '--conf spark.sql.catalog.s3t_catalog.warehouse=s3://amzn-s3-demo-bucket/mv-warehouse '
                  '--conf spark.sql.catalog.s3t_catalog.glue.region=us-east-1 '
                  '--conf spark.sql.defaultCatalog=s3t_catalog '
                  '--conf spark.sql.optimizer.answerQueriesWithMVs.enabled=true '
                  '--conf spark.sql.materializedViews.metadataCache.enabled=true'
    },
    GlueVersion='5.1'
)

Se lo utilizzi AWS Lake Formation per regolare l'accesso al tuo data lake, aggiungi la seguente impostazione a ciascuna configurazione del catalogo:


--conf spark.sql.catalog.glue_catalog.glue.lakeformation-enabled=true

Per bucket S3 per uso generico



job = glue.create_job(
    Name='materialized-view-job',
    Role='arn:aws:iam::111122223333:role/GlueServiceRole',
    Command={
        'Name': 'glueetl',
        'ScriptLocation': 's3://amzn-s3-demo-bucket/scripts/mv-script.py',
        'PythonVersion': '3'
    },
    DefaultArguments={
        '--enable-glue-datacatalog': 'true',
        '--conf': 'spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions '
                  '--conf spark.sql.catalog.glue_catalog=org.apache.iceberg.spark.SparkCatalog '
                  '--conf spark.sql.catalog.glue_catalog.type=glue '
                  '--conf spark.sql.catalog.glue_catalog.warehouse=s3://amzn-s3-demo-bucket/warehouse '
                  '--conf spark.sql.catalog.glue_catalog.glue.region=us-east-1 '
                  '--conf spark.sql.catalog.glue_catalog.glue.id=111122223333 '
                  '--conf spark.sql.catalog.glue_catalog.glue.account-id=111122223333 '
                  '--conf spark.sql.defaultCatalog=glue_catalog '
                  '--conf spark.sql.optimizer.answerQueriesWithMVs.enabled=true '
                  '--conf spark.sql.materializedViews.metadataCache.enabled=true'
    },
    GlueVersion='5.1'
)

Se lo utilizzi AWS Lake Formation per regolare l'accesso al tuo data lake, aggiungi la seguente impostazione a ciascuna configurazione del catalogo:


--conf spark.sql.catalog.glue_catalog.glue.lakeformation-enabled=true

Configurazione AWS Quaderni Glue Studio

Nei notebook AWS Glue Studio, configura la sessione Spark utilizzando il comando magico %%configure all'inizio del notebook:


%%configure
{
    "conf": {
        "spark.sql.extensions": "org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions",
        "spark.sql.catalog.glue_catalog": "org.apache.iceberg.spark.SparkCatalog",
        "spark.sql.catalog.glue_catalog.type": "glue",
        "spark.sql.catalog.glue_catalog.warehouse": "s3://amzn-s3-demo-bucket/warehouse",
        "spark.sql.catalog.glue_catalog.glue.region": "us-east-1",
        "spark.sql.catalog.glue_catalog.glue.id": "111122223333",
        "spark.sql.catalog.glue_catalog.glue.account-id": "111122223333",
        "spark.sql.defaultCatalog": "glue_catalog",
        "spark.sql.optimizer.answerQueriesWithMVs.enabled": "true",
        "spark.sql.materializedViews.metadataCache.enabled": "true"
    }
}

Se lo usi AWS Lake Formation, aggiungi la seguente riga al blocco: conf


"spark.sql.catalog.glue_catalog.glue.lakeformation-enabled": "true"

Abilitare l'aggiornamento incrementale

Per abilitare l'ottimizzazione dell'aggiornamento incrementale, aggiungete le seguenti proprietà di configurazione ai parametri del lavoro o alla configurazione del notebook:


--conf spark.sql.optimizer.incrementalMVRefresh.enabled=true
--conf spark.sql.optimizer.incrementalMVRefresh.deltaThresholdCheckEnabled=false

Parametri di configurazione

I seguenti parametri di configurazione controllano il comportamento delle viste materializzate:

spark.sql.extensions— Abilita le estensioni di sessione Iceberg Spark necessarie per il supporto delle viste materializzate.
spark.sql.catalog.glue_catalog.glue.lakeformation-enabled : Opzionale. Imposta su true solo se utilizzi AWS Lake Formation per regolare l'accesso al tuo data lake. Se omesse o impostate sufalse, le policy IAM vengono utilizzate per l'autorizzazione.
spark.sql.optimizer.answerQueriesWithMVs.enabled— Consente la riscrittura automatica delle query per utilizzare viste materializzate. Imposta su true per attivare questa ottimizzazione.
spark.sql.materializedViews.metadataCache.enabled— Abilita la memorizzazione nella cache dei metadati delle viste materializzate per l'ottimizzazione delle query. Impostato su true per migliorare le prestazioni di riscrittura delle query.
spark.sql.optimizer.incrementalMVRefresh.enabled— Consente l'ottimizzazione incrementale dell'aggiornamento. Impostato su true per elaborare solo i dati modificati durante le operazioni di aggiornamento.
spark.sql.optimizer.answerQueriesWithMVs.decimalAggregateCheckEnabled— Controlla la convalida delle operazioni di aggregazione decimale nella riscrittura delle query. Imposta su false per disabilitare determinati controlli di overflow decimale.

Creazione di viste materializzate

È possibile creare viste materializzate utilizzando l'istruzione SQL CREATE MATERIALIZED VIEW nei lavori o nei AWS notebook Glue. La definizione della vista specifica la logica di trasformazione come una query SQL che fa riferimento a una o più tabelle di origine.

Creazione di una vista materializzata di base in AWS Glue jobs

L'esempio seguente dimostra la creazione di una vista materializzata in uno script di lavoro AWS Glue, utilizza nomi di tabella completi con una convenzione di denominazione in tre parti nella definizione della vista:


from awsglue.context import GlueContext
from pyspark.context import SparkContext

sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session

# Create materialized view
spark.sql("""
    CREATE MATERIALIZED VIEW customer_orders
    AS 
    SELECT 
        customer_name, 
        COUNT(*) as order_count, 
        SUM(amount) as total_amount 
    FROM glue_catalog.sales.orders
    GROUP BY customer_name
""")

Creazione di una vista materializzata con aggiornamento automatico

Per configurare l'aggiornamento automatico, specificate una pianificazione di aggiornamento durante la creazione della vista, utilizzando nomi di tabella completi con una convenzione di denominazione in tre parti nella definizione della vista:


spark.sql("""
    CREATE MATERIALIZED VIEW customer_orders
    SCHEDULE REFRESH EVERY 1 HOUR
    AS 
    SELECT 
        customer_name, 
        COUNT(*) as order_count, 
        SUM(amount) as total_amount 
    FROM glue_catalog.sales.orders
    GROUP BY customer_name
""")

Creazione di una vista materializzata con riferimenti tra cataloghi

Quando le tabelle di origine si trovano in un catalogo diverso rispetto alla vista materializzata, utilizzate nomi di tabella completi con una convenzione di denominazione in tre parti sia nel nome della vista che nella definizione della vista:


spark.sql("""
    CREATE MATERIALIZED VIEW s3t_catalog.analytics.customer_summary
    AS 
    SELECT 
        customer_name, 
        COUNT(*) as order_count, 
        SUM(amount) as total_amount 
    FROM glue_catalog.sales.orders
    GROUP BY customer_name
""")

Creazione di viste materializzate in AWS Quaderni Glue Studio

Nei notebook AWS Glue Studio, è possibile utilizzare il comando magico %%sql per creare viste materializzate, utilizzando nomi di tabella completi con una convenzione di denominazione in tre parti nella definizione delle viste:


%%sql
CREATE MATERIALIZED VIEW customer_orders
AS 
SELECT 
    customer_name, 
    COUNT(*) as order_count, 
    SUM(amount) as total_amount 
FROM glue_catalog.sales.orders
GROUP BY customer_name

Invio di query alle viste materializzate

Dopo aver creato una vista materializzata, è possibile interrogarla come qualsiasi altra tabella utilizzando le istruzioni SQL SELECT standard nei job o nei notebook AWS Glue.

Interrogazione in AWS Glue jobs


from awsglue.context import GlueContext
from pyspark.context import SparkContext

sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session

# Query materialized view
result = spark.sql("SELECT * FROM customer_orders")
result.show()

Interrogando AWS Quaderni Glue Studio


%%sql
SELECT * FROM customer_orders

Riscrittura automatica delle interrogazioni

Quando la riscrittura automatica delle query è abilitata, l'ottimizzatore Spark analizza le query e utilizza automaticamente le viste materializzate quando possono migliorare le prestazioni. Ad esempio, se esegui la seguente query:


result = spark.sql("""
    SELECT 
        customer_name, 
        COUNT(*) as order_count, 
        SUM(amount) as total_amount 
    FROM orders
    GROUP BY customer_name
""")

L'ottimizzatore Spark riscrive automaticamente questa query per utilizzare la vista materializzata customer_orders invece di elaborare la tabella degli ordini di base, a condizione che la vista materializzata sia aggiornata.

Verifica della riscrittura automatica delle query

Per verificare se una query utilizza la riscrittura automatica delle query, utilizzate il comando EXPLAIN EXTENDED:


spark.sql("""
    EXPLAIN EXTENDED
    SELECT customer_name, COUNT(*) as order_count, SUM(amount) as total_amount 
    FROM orders
    GROUP BY customer_name
""").show(truncate=False)

Nel piano di esecuzione, cercate il nome della vista materializzata nell' BatchScan operazione. Se il piano mostra BatchScan glue_catalog.analytics.customer_orders anziché glue_catalog.sales.orders, la query è stata riscritta automaticamente per utilizzare la BatchScan vista materializzata.

Tieni presente che la riscrittura automatica delle query richiede del tempo prima che la cache dei metadati Spark venga compilata dopo la creazione di una vista materializzata. Questo processo viene in genere completato entro 30 secondi.

Aggiornamento delle viste materializzate

È possibile aggiornare le viste materializzate utilizzando due metodi: aggiornamento completo o aggiornamento incrementale. L'aggiornamento completo ricalcola l'intera vista materializzata da tutti i dati della tabella di base, mentre l'aggiornamento incrementale elabora solo i dati che sono stati modificati dall'ultimo aggiornamento.

Aggiornamento manuale completo in AWS Glue jobs

Per eseguire un aggiornamento completo di una vista materializzata:


spark.sql("REFRESH MATERIALIZED VIEW customer_orders FULL")

# Verify updated results
result = spark.sql("SELECT * FROM customer_orders")
result.show()

Aggiornamento incrementale manuale in AWS Glue jobs

Per eseguire un aggiornamento incrementale, assicurati che l'aggiornamento incrementale sia abilitato nella configurazione della sessione Spark, quindi esegui:


spark.sql("REFRESH MATERIALIZED VIEW customer_orders")

# Verify updated results
result = spark.sql("SELECT * FROM customer_orders")
result.show()

Il AWS Glue Data Catalog determina automaticamente se l'aggiornamento incrementale è applicabile in base alla definizione della vista e alla quantità di dati modificati. Se l'aggiornamento incrementale non è possibile, l'operazione torna all'aggiornamento completo.

Rinfrescante in AWS Quaderni Glue Studio

Nei notebook, usa il comando magico %%sql:


%%sql
REFRESH MATERIALIZED VIEW customer_orders FULL

Verifica dell'esecuzione dell'aggiornamento incrementale

Per confermare che l'aggiornamento incrementale sia stato eseguito correttamente, abilita la registrazione di debug nel tuo job Glue: AWS


from awsglue.context import GlueContext
from pyspark.context import SparkContext
import logging

sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session

# Enable debug logging
logger = logging.getLogger('org.apache.spark.sql')
logger.setLevel(logging.DEBUG)

# Execute refresh
spark.sql("REFRESH MATERIALIZED VIEW customer_orders")

Cerca il seguente messaggio nei log dei lavori di AWS Glue:


DEBUG RefreshMaterializedViewExec: Executed Incremental Refresh

Gestione delle viste materializzate

AWS Glue fornisce comandi SQL per la gestione del ciclo di vita delle viste materializzate nei lavori e nei notebook.

Descrizione di una vista materializzata

Per visualizzare i metadati relativi a una vista materializzata, tra cui la definizione, lo stato di aggiornamento e il timestamp dell'ultimo aggiornamento:


spark.sql("DESCRIBE EXTENDED customer_orders").show(truncate=False)

Alterazione di una vista materializzata

Per modificare la pianificazione di aggiornamento di una vista materializzata esistente:


spark.sql("""
    ALTER MATERIALIZED VIEW customer_orders 
    ADD SCHEDULE REFRESH EVERY 2 HOURS
""")

Per rimuovere l'aggiornamento automatico:


spark.sql("""
    ALTER MATERIALIZED VIEW customer_orders 
    DROP SCHEDULE
""")

Eliminare una vista materializzata

Per eliminare una vista materializzata:


spark.sql("DROP MATERIALIZED VIEW customer_orders")

Questo comando rimuove la definizione della vista materializzata dal AWS Glue Data Catalog ed elimina i dati della tabella Iceberg sottostante dal bucket S3.

Elenco delle viste materializzate

Per elencare tutte le viste materializzate in un database:


spark.sql("SHOW VIEWS FROM analytics").show()

Autorizzazioni per le viste materializzate

Per creare e gestire le viste materializzate, è necessario configurare le autorizzazioni per il ruolo IAM che crea la vista (il ruolo definer). AWS Glue supporta due modelli di autorizzazione:

Solo policy IAM: se gestisci le tabelle del AWS Glue Data Catalog con le policy IAM, non è richiesta alcuna AWS Lake Formation configurazione.
AWS Lake Formation— Se lo utilizzi già AWS Lake Formation per governare il tuo data lake, puoi configurare AWS Lake Formation le autorizzazioni per le viste materializzate.

Autorizzazioni richieste per il ruolo di definitore

Se si utilizzano solo le politiche IAM:

Il ruolo definitore deve avere le seguenti autorizzazioni IAM:

Sul AWS Glue Data Catalog — GetTable e sulle autorizzazioni CreateTable API GetTables
Sul database di destinazione: autorizzazione CreateTable
Nella tabella di origine, posizioni S3: accesso alla lettura (s3:GetObject, s3:) ListBucket

Quando si crea una vista materializzata, l'ARN del ruolo definitore viene memorizzato nella definizione della vista. Il AWS Glue Data Catalog assume questo ruolo durante l'esecuzione di operazioni di aggiornamento automatico. Se il ruolo di definitore perde l'accesso alle tabelle di origine, le operazioni di aggiornamento falliranno fino al ripristino delle autorizzazioni.

Se si utilizza: AWS Lake Formation

Il ruolo definitore deve disporre delle seguenti AWS Lake Formation autorizzazioni:

Nelle tabelle di origine: autorizzazioni SELECT o ALL senza filtri di riga, colonna o cella
Sul database di destinazione: autorizzazione CREATE_TABLE
Sul AWS Glue Data Catalog GetTable e sulle autorizzazioni CreateTable API

Autorizzazioni IAM per AWS Glue jobs

Il ruolo IAM del tuo lavoro AWS Glue richiede le seguenti autorizzazioni:


{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Effect": "Allow",
            "Action": [
                "glue:GetCatalog",
                "glue:GetCatalogs",
                "glue:GetTable",
                "glue:GetTables",
                "glue:CreateTable",
                "glue:UpdateTable",
                "glue:DeleteTable",
                "glue:GetDatabase",
                "glue:GetDatabases",
                "cloudwatch:PutMetricData"
            ],
            "Resource": "*"
        },
        {
            "Effect": "Allow",
            "Action": [
                "s3:GetObject",
                "s3:PutObject",
                "s3:DeleteObject"
            ],
            "Resource": [
                "arn:aws:s3:::amzn-s3-demo-bucket/*"
            ]
        },
        {
            "Effect": "Allow",
            "Action": [
                "s3:ListBucket"
            ],
            "Resource": [
                "arn:aws:s3:::amzn-s3-demo-bucket"
            ]
        },
        {
            "Effect": "Allow",
            "Action": [
                "logs:CreateLogGroup",
                "logs:CreateLogStream",
                "logs:PutLogEvents"
            ],
            "Resource": [
                "arn:aws:logs:*:*:*:/aws-glue/*"
            ]
        }
    ]
}

Se lo utilizzi AWS Lake Formation, aggiungi anche la seguente autorizzazione:


{
    "Effect": "Allow",
    "Action": [
        "lakeformation:GetDataAccess"
    ],
    "Resource": "*"
}

Il ruolo che usi per l'aggiornamento automatico di Materialized View deve avere l'PassRole autorizzazione iam: sul ruolo.



{
  "Version":"2012-10-17",
  "Statement": [
    {
      "Effect": "Allow",
      "Action": [
        "iam:PassRole"
      ],
      "Resource": [
        "arn:aws:iam::111122223333:role/materialized-view-role-name"
      ]
    }
  ]
}

AWS Affinché Glue aggiorni automaticamente la vista materializzata, il ruolo deve inoltre avere la seguente politica di attendibilità che consenta al servizio di assumere il ruolo.



{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Effect": "Allow",
      "Principal": {
        "Service": "glue.amazonaws.com"
      },
      "Action": "sts:AssumeRole"
    }
  ]
}

Se la vista materializzata è archiviata in S3 Tables Bucket, devi anche aggiungere la seguente autorizzazione al ruolo.



{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Effect": "Allow",
      "Action": [
        "s3tables:PutTableMaintenanceConfiguration"
      ],
      "Resource": "arn:aws:s3tables:*:123456789012:*"
    }
  ]
}

Concessione dell'accesso alle viste materializzate

Se si utilizzano solo le policy IAM:

Qualsiasi identità IAM con GetTable autorizzazione sulla vista materializzata può interrogarla. Gli utenti possono interrogare la vista materializzata senza richiedere l'accesso diretto alle tabelle di origine sottostanti.

Se si utilizza AWS Lake Formation:

Per concedere ad altri utenti l'accesso all'interrogazione di una vista materializzata, utilizzare AWS Lake Formation per concedere l'autorizzazione SELECT sulla tabella delle viste materializzate. Gli utenti possono interrogare la vista materializzata senza richiedere l'accesso diretto alle tabelle di origine sottostanti.

Per informazioni dettagliate sulla configurazione delle AWS Lake Formation autorizzazioni, consulta Concessione e revoca delle autorizzazioni sulle risorse del Data Catalog nella Guida per gli sviluppatori. AWS Lake Formation

Monitoraggio delle operazioni di visualizzazione materializzata

Il AWS Glue Data Catalog pubblica metriche e log per le operazioni di aggiornamento delle viste materializzate su Amazon. CloudWatch Puoi monitorare lo stato dell'aggiornamento, la durata e il volume di dati elaborati tramite metriche. CloudWatch

Visualizzazione dei registri dei lavori

Per visualizzare i log dei lavori AWS Glue che creano o aggiornano viste materializzate:

Apri la console AWS Glue.
Scegli Jobs dal pannello di navigazione.
Seleziona il tuo lavoro e scegli Esegue.
Seleziona una corsa specifica e scegli Registri per visualizzare i CloudWatch registri.

Configurazione degli allarmi

Per ricevere notifiche quando le operazioni di aggiornamento falliscono o superano la durata prevista, crea CloudWatch allarmi sulle metriche delle viste materializzate. Puoi anche configurare EventBridge le regole di Amazon per attivare risposte automatiche agli eventi di aggiornamento.

Esempio: flusso di lavoro completo

L'esempio seguente dimostra un flusso di lavoro completo per la creazione e l'utilizzo di una vista materializzata in AWS Glue.

Esempio AWS Glue job script


import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job

args = getResolvedOptions(sys.argv, ['JOB_NAME'])
sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session
job = Job(glueContext)
job.init(args['JOB_NAME'], args)

# Create database and base table
spark.sql("CREATE DATABASE IF NOT EXISTS sales")
spark.sql("USE sales")

spark.sql("""
    CREATE TABLE IF NOT EXISTS orders (
        id INT,
        customer_name STRING,
        amount DECIMAL(10,2),
        order_date DATE
    )
""")

# Insert sample data
spark.sql("""
    INSERT INTO orders VALUES 
        (1, 'John Doe', 150.00, DATE('2024-01-15')),
        (2, 'Jane Smith', 200.50, DATE('2024-01-16')),
        (3, 'Bob Johnson', 75.25, DATE('2024-01-17'))
""")

# Create materialized view
spark.sql("""
    CREATE MATERIALIZED VIEW customer_summary
    AS 
    SELECT 
        customer_name, 
        COUNT(*) as order_count, 
        SUM(amount) as total_amount 
    FROM glue_catalog.sales.orders
    GROUP BY customer_name
""")

# Query the materialized view
print("Initial materialized view data:")
spark.sql("SELECT * FROM customer_summary").show()

# Insert additional data
spark.sql("""
    INSERT INTO orders VALUES 
        (4, 'Jane Smith', 350.00, DATE('2024-01-18')),
        (5, 'Bob Johnson', 100.25, DATE('2024-01-19'))
""")

# Refresh the materialized view
spark.sql("REFRESH MATERIALIZED VIEW customer_summary FULL")

# Query updated results
print("Updated materialized view data:")
spark.sql("SELECT * FROM customer_summary").show()

job.commit()

Esempio AWS Taccuino Glue Studio


%%configure
{
    "conf": {
        "spark.sql.extensions": "org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions",
        "spark.sql.catalog.glue_catalog": "org.apache.iceberg.spark.SparkCatalog",
        "spark.sql.catalog.glue_catalog.type": "glue",
        "spark.sql.catalog.glue_catalog.warehouse": "s3://amzn-s3-demo-bucket/warehouse",
        "spark.sql.catalog.glue_catalog.glue.region": "us-east-1",
        "spark.sql.catalog.glue_catalog.glue.id": "111122223333",
        "spark.sql.catalog.glue_catalog.glue.account-id": "111122223333",
        "spark.sql.defaultCatalog": "glue_catalog",
        "spark.sql.optimizer.answerQueriesWithMVs.enabled": "true",
        "spark.sql.materializedViews.metadataCache.enabled": "true"
    }
}


%%sql
CREATE DATABASE IF NOT EXISTS sales


%%sql
USE sales


%%sql
CREATE TABLE IF NOT EXISTS orders (
    id INT,
    customer_name STRING,
    amount DECIMAL(10,2),
    order_date DATE
)


%%sql
INSERT INTO orders VALUES 
    (1, 'John Doe', 150.00, DATE('2024-01-15')),
    (2, 'Jane Smith', 200.50, DATE('2024-01-16')),
    (3, 'Bob Johnson', 75.25, DATE('2024-01-17'))


%%sql
CREATE MATERIALIZED VIEW customer_summary
AS 
SELECT 
    customer_name, 
    COUNT(*) as order_count, 
    SUM(amount) as total_amount 
FROM glue_catalog.sales.orders
GROUP BY customer_name


%%sql
SELECT * FROM customer_summary


%%sql
INSERT INTO orders VALUES 
    (4, 'Jane Smith', 350.00, DATE('2024-01-18')),
    (5, 'Bob Johnson', 100.25, DATE('2024-01-19'))


%%sql
REFRESH MATERIALIZED VIEW customer_summary FULL


%%sql
SELECT * FROM customer_summary

Considerazioni e limitazioni

Considerate quanto segue quando utilizzate viste materializzate con AWS Glue:

Le viste materializzate richiedono AWS Glue versione 5.1 o successiva.
Le tabelle di origine devono essere tabelle Apache Iceberg o Apache Hive registrate nel AWS Glue Data Catalog. Le tabelle Apache Hudi e Linux Foundation Delta Lake non sono supportate al momento del lancio.
Le tabelle di origine devono risiedere nella stessa regione e nello stesso account della vista materializzata.
Le viste materializzate non possono fare riferimento alle viste del AWS Glue Data Catalog, alle viste multidialettali o ad altre viste materializzate come tabelle di origine.
Il ruolo View Definer deve avere accesso completo in lettura su tutte le tabelle di origine. Per i clienti che utilizzano le policy IAM, ciò significa l' GetTables autorizzazione al catalogo AWS Glue e l'accesso in lettura alle sedi S3 sottostanti. Per i clienti che utilizzano AWS Lake Formation, ciò significa l'autorizzazione SELECT o ALL senza applicare filtri di riga, colonna o cella.
Le viste materializzate alla fine sono coerenti con le tabelle di origine. Durante la finestra di aggiornamento, le query possono restituire dati non aggiornati. Esegui l'aggiornamento manuale per una coerenza immediata.
L'intervallo minimo di aggiornamento automatico è di un'ora.
L'aggiornamento incrementale supporta un sottoinsieme limitato di operazioni SQL. La definizione della vista deve essere un singolo SELECT-FROM-WHERE-GROUP BY-HAVING blocco e non può contenere operazioni di set, sottoquery, la parola chiave DISTINCT in SELECT o funzioni aggregate, funzioni di finestra o join diversi da INNER JOIN.
L'aggiornamento incrementale non supporta le funzioni definite dall'utente o determinate funzioni integrate. È supportato solo un sottoinsieme delle funzioni integrate di Spark SQL.
La riscrittura automatica delle query considera solo le viste materializzate le cui definizioni appartengono a un sottoinsieme SQL limitato, simile alle restrizioni di aggiornamento incrementale.
Gli identificatori contenenti caratteri speciali diversi dai caratteri alfanumerici e dai caratteri di sottolineatura non sono supportati nelle query CREATE MATERIALIZED VIEW. Questo vale per tutti i tipi di identificatori, inclusi i nomi catalog/namespace /table, i nomi dei campi di colonne e strutture, i CTE e gli alias.
Le colonne delle viste materializzate che iniziano con il prefisso __ivm sono riservate all'uso del sistema. Amazon si riserva il diritto di modificare o rimuovere queste colonne nelle versioni future.
Le clausole SORT BY, LIMIT, OFFSET, CLUSTER BY e ORDER BY non sono supportate nelle definizioni delle viste materializzate.
Cross-Region e le tabelle di origine tra account non sono supportate.
Le tabelle a cui si fa riferimento nella query di visualizzazione devono utilizzare una convenzione di denominazione in tre parti (ad esempio, glue_catalog.my_db.my_table) perché l'aggiornamento automatico non utilizza le impostazioni predefinite del catalogo e del database.
Le operazioni di aggiornamento completo sovrascrivono l'intera tabella e rendono non disponibili le istantanee precedenti.
Non-deterministic funzioni come rand () o current_timestamp () non sono supportate nelle definizioni delle viste materializzate.
AWS Lake Formation Il controllo granulare degli accessi (sicurezza a livello di riga, sicurezza a livello di colonna, sicurezza a livello di cella) sulle viste materializzate non è attualmente supportato.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Risoluzione dei problemi relativi ai processi Spark con IA

Tipi di worker