Capacità di calcolo per Amazon Redshift Serverless - Amazon Redshift

Amazon Redshift non supporterà più la creazione di nuove UDF Python a partire dal 1º novembre 2025. Se desideri utilizzare le UDF Python, creale prima di tale data. Le UDF Python esistenti continueranno a funzionare normalmente. Per ulteriori informazioni, consulta il post del blog.

Capacità di calcolo per Amazon Redshift Serverless

Con Amazon Redshift serverless, la capacità di calcolo aumenta e si riduce verticalmente in modo automatico per soddisfare i requisiti del carico di lavoro. La capacità di calcolo si riferisce alla potenza di elaborazione e alla memoria allocate ai carichi di lavoro Amazon Redshift serverless. I casi d’uso comuni includono la gestione dei periodi di picco di traffico, l’esecuzione di analisi complesse o l’elaborazione efficiente di grandi volumi di dati. I seguenti termini forniscono dettagli su come Amazon Redshift gestisce la capacità di calcolo.

RPU

Amazon Redshift Serverless misura la capacità del data warehouse in Redshift Processing Units (RPU). Le RPU sono risorse utilizzate per gestire i carichi di lavoro. Una RPU fornisce 16 GB di memoria.

Capacità base

Rappresenta la capacità di base del data warehouse utilizzata da Amazon Redshift per elaborare le query. La capacità di base è specificata in RPU. Puoi impostare una capacità di base in Redshift Processing Unit (RPU). L’impostazione di una capacità base superiore migliora le prestazioni delle query, in particolare per i processi di elaborazione dati che consumano molte risorse. La capacità di base predefinita per Amazon Redshift Serverless è 128 RPU. Puoi modificare l’impostazione Capacità di base da 4 RPU a 512 RPU. Puoi impostare questo valore su 4 RPU o, per le unità da 8, su 8 RPU o più (8, 16, 24... 512). Puoi impostare questo valore utilizzando la console AWS, l’operazione dell’API UpdateWorkgroup o l’operazione update-workgroup in AWS CLI.

Con una capacità base minima di 4 RPU, hai la flessibilità di eseguire carichi di lavoro sia semplici che complessi in base ai costi dei data warehouse e ai requisiti di capacità. La capacità di 4 RPU di base è destinata ai warehouse che contengono meno di 32 TB di dati, mentre le capacità di 8, 16 e 24 RPU di base sono destinate a carichi di lavoro che richiedono meno di 128 TB di dati. Se i requisiti di dati sono superiori a 128 TB, devi utilizzare almeno 32 RPU di base. Inoltre, per i carichi di lavoro che hanno tabelle con un elevato numero di colonne numeriche e una maggiore simultaneità, consigliamo di utilizzare 32 o più RPU di base.

Il numero massimo di RPU di base disponibili, 1.024, aggiunge il più alto livello di risorse di calcolo ai carichi di lavoro. Ciò offre una maggiore flessibilità per supportare carichi di lavoro di grande complessità e accelera il caricamento e l’esecuzione di query sui dati.

Nota

La capacità massima espansa di RPU di base pari a 1.024 è disponibile nelle seguenti Regioni AWS. In altre Regioni, la capacità base massima è 512 RPU.

  • Stati Uniti orientali (Virginia settentrionale)

  • Stati Uniti orientali (Ohio)

  • Stati Uniti occidentali (Oregon)

  • Europa (Irlanda)

  • Europa (Francoforte)

Puoi aumentare o diminuire le RPU in unità di 32 quando imposti una capacità base tra 512 e 1.024.

Se gestisci carichi di lavoro più grandi e complessi, valuta la possibilità di aumentare le dimensioni del data warehouse Redshift serverless. I warehouse più grandi hanno accesso a più risorse di calcolo, il che consente loro di elaborare le query in modo più efficiente.

Di seguito sono riportati alcuni casi in cui è utile disporre di una capacità base più elevata:

  • Ci sono query complesse che richiedono molto tempo per essere eseguite.

  • Le tabelle hanno un numero elevato di colonne.

  • Le query hanno un numero elevato di JOIN.

  • Le query aggregano o scansionano grandi quantità di dati da un’origine esterna, come un data lake.

Per ulteriori informazioni sulle quote e sui limiti di Amazon Redshift serverless, consulta Quote per gli oggetti Amazon Redshift Serverless.

Considerazioni e limitazioni per la capacità di Amazon Redshift serverless

Di seguito sono riportate le considerazioni e limitazioni per la capacità di Amazon Redshift serverless. Per considerazioni generali su Redshift serverless, consulta Considerazioni su quando utilizzare Amazon Redshift Serverless.

  • Le configurazioni da 4 RPU di base supportano una capacità di archiviazione gestita fino a 32 TB. Se utilizzi più di 32 TB di archiviazione gestita, non puoi impostare la RPU di base su meno di 8 RPU.

  • Le configurazioni da 8 o 16 RPU supportano una capacità di archiviazione gestita Redshift fino a 128 TB. Se utilizzi più di 128 TB di archiviazione gestita, non puoi impostare la base su meno di 32 RPU.

  • La modifica della capacità di base del gruppo di lavoro potrebbe annullare alcune delle query in esecuzione sul gruppo di lavoro.

  • Redshift serverless scala le RPU per il data warehouse utilizzando questi incrementi:

    • Da 4 a 8 RPU: aumenta in incrementi di 4 RPU.

    • Da 8 a 512 RPU: aumenta in incrementi di 8 RPU.

    • Da 512 a 1.024 RPU: aumenta in incrementi di 32 RPU.

  • L’opzione VACUUM BOOST è supportata solo per 8 RPU e più. Per 8 RPU o meno, utilizza invece il comando seguente:

    VACUUM [FULL | SORT ONLY | DELETE ONLY | REINDEX | RECLUSTER] [table_name] [TO threshold PERCENT]

Redshift serverless con una capacità di 4 unità di elaborazione Redshift (RPU)

Redshift serverless con una capacità di 4 RPU di base è ideale per carichi di lavoro più piccoli o meno impegnativi. Questo punto di ingresso offre una soluzione flessibile ed economica. Questa configurazione di base supporta i data warehouse con, al massimo, le seguenti risorse:

  • Fino a 32 TB di archiviazione gestita Redshift.

  • Un massimo di 100 colonne per tabella

  • 64 GB di memoria

Se hai bisogno di superare queste limitazioni, devi aumentare la capacità base manualmente, anziché affidarti al dimensionamento automatico. Una volta che hai scalato il data warehouse oltre 4 RPU, il data warehouse continua a utilizzare più RPU e Amazon Redshift non riporta il data warehouse a 4 RPU.

Nota

Puoi creare tabelle con più di 100 colonne utilizzando 4 RPU di base. Tuttavia consigliamo di limitare le tabelle a 100 colonne. Il superamento di questo limite può causare l’esaurimento della memoria del data warehouse durante l’esecuzione delle query, con conseguente riduzione delle prestazioni.

Puoi creare data warehouse che utilizzano 4 RPU nelle Regioni AWS seguenti:

  • Stati Uniti orientali (Ohio)

  • Stati Uniti orientali (Virginia settentrionale)

  • Stati Uniti occidentali (California settentrionale)

  • Stati Uniti occidentali (Oregon)

  • Asia Pacifico (Mumbai)

  • Asia Pacifico (Singapore)

  • Asia Pacifico (Sydney)

  • Asia Pacifico (Tokyo)

  • Europa (Irlanda)

  • Europa (Stoccolma)

Dimensionamento e ottimizzazione basati sull’IA

La funzionalità di dimensionamento e ottimizzazione basati sull’intelligenza artificiale è disponibile in tutte le Regioni AWS in cui è disponibile Amazon Redshift serverless.

Amazon Redshift serverless offre una funzionalità avanzata di dimensionamento e ottimizzazione basati sull’IA per soddisfare i vari requisiti dei carichi di lavoro. I data warehouse possono presentare i seguenti problemi di provisioning:

  • I data warehouse possono essere sottoposti a un provisioning eccessivo per migliorare le prestazioni delle query che richiedono un uso intensivo di risorse

  • I data warehouse possono essere sottoposti a un provisioning insufficiente per risparmiare sui costi.

Trovare il giusto equilibrio tra prestazioni e costi per i carichi di lavoro del data warehouse è difficile, soprattutto con query ad hoc e volumi di dati in crescita. Quando esegui carichi di lavoro misti, che comprendono query a bassa e alta intensità di risorse, hai bisogno di un dimensionamento intelligente. La funzionalità di dimensionamento e ottimizzazione basati sull’IA scala automaticamente il calcolo serverless o le RPU in risposta alla crescita dei dati. Questa funzionalità aiuta anche a mantenere le prestazioni delle query entro obiettivi mirati in termini di prezzo-prestazioni. Il dimensionamento e l’ottimizzazione basati sull’IA allocano dinamicamente le risorse di calcolo man mano che i volumi di dati aumentano, garantendo che le query continuino a soddisfare gli obiettivi prestazionali. Il dimensionamento e l’ottimizzazione basati sull’IA consentono al servizio di adattarsi senza problemi ai requisiti mutevoli dei carichi di lavoro, senza la necessità di interventi manuali o di una complessa pianificazione della capacità.

Amazon Redshift serverless offre una soluzione di dimensionamento più completa e reattiva in base a fattori quali la complessità delle query e il volume dei dati. Questa funzionalità consente di ottimizzare il rapporto prezzo-prestazioni dei carichi di lavoro pur mantenendo la flessibilità necessaria per gestire in modo efficiente carichi di lavoro diversi e set di dati in crescita. Amazon Redshift serverless può apportare automaticamente all’endpoint Amazon Redshift serverless le ottimizzazioni basate sull’IA per soddisfare gli obiettivi prezzo-prestazioni specificati per il gruppo di lavoro serverless. Questa ottimizzazione automatica del rapporto prezzo/prestazioni è particolarmente utile se non sai quale capacità di base impostare per i carichi di lavoro o se alcune parti del carico di lavoro potrebbero essere più efficienti con un numero maggiore di risorse allocate.

Ad esempio

Se in genere l’organizzazione esegue carichi di lavoro che richiedono solo 32 RPU ma improvvisamente introduce una query più complessa, potresti non conoscere la capacità base appropriata. L’impostazione di una capacità base più elevata comporta prestazioni migliori, ma i costi potrebbero non corrispondere alle aspettative. Utilizzando il dimensionamento e l'ottimizzazione delle risorse basati sull'intelligenza artificiale, Amazon Redshift serverless adatta automaticamente le RPU per soddisfare gli obiettivi di rapporto prezzo/prestazioni, mantenendo al contempo i costi ottimizzati per l'organizzazione. Questa ottimizzazione automatica è utile indipendentemente dalla dimensione del carico di lavoro. L'ottimizzazione automatica consente di raggiungere gli obiettivi di rapporto prezzo/prestazioni dell'organizzazione in presenza di un numero illimitato di query complesse.

Nota

Gli obiettivi di rapporto prezzo/prestazioni sono un'impostazione specifica del gruppo di lavoro. Gruppi di lavoro diversi possono avere obiettivi di rapporto prezzo/prestazioni diversi.

Per mantenere i costi prevedibili, imposta il limite di capacità massima che Amazon Redshift serverless può allocare ai carichi di lavoro.

Per configurare gli obiettivi di rapporto prezzo/prestazioni, usa la console AWS. Devi abilitare esplicitamente l’obiettivo prezzo-prestazioni quando crei il gruppo di lavoro serverless. Dopo avere creato il gruppo di lavoro serverless, puoi anche modificare l’obiettivo prezzo-prestazioni. Quando abiliti l’obiettivo prezzo-prestazioni, questo è Bilanciato per impostazione predefinita.

Come modificare l’obiettivo prezzo-prestazioni per il gruppo di lavoro
  1. Nella console Amazon Redshift serverless scegli Configurazione del gruppo di lavoro.

  2. Scegli il gruppo di lavoro per cui desideri modificare l'obiettivo di rapporto prezzo/prestazioni. Seleziona la scheda Prestazioni e scegli Modifica.

  3. Scegli Obiettivo prezzo-prestazioni e sposta il cursore sull’impostazione desiderata.

  4. Scegli Save changes (Salva modifiche).

  5. Per aggiornare la quantità massima di RPU che Amazon Redshift serverless può allocare al carico di lavoro, scegli la scheda Limiti della sezione Configurazione del gruppo di lavoro.

Puoi utilizzare il cursore Obiettivo prezzo-prestazioni per impostare l’equilibrio desiderato tra costi e prestazioni. Spostando il cursore, puoi scegliere una delle seguenti opzioni:

  • Ottimizza i costi: questa impostazione dà priorità al risparmio sui costi. Amazon Redshift serverless tenta di aumentare verticalmente in modo automatico la capacità di calcolo. In questo caso non comporta costi aggiuntivi. Amazon Redshift serverless tenta inoltre di ridurre verticalmente le risorse di calcolo a costi inferiori, possibilmente aumentando i runtime delle query.

  • Bilanciato: questa impostazione crea un equilibrio tra prestazioni e costi. Amazon Redshift serverless scala in base alle prestazioni e può comportare un aumento o una diminuzione moderata dei costi. Questa è l’impostazione consigliata per la maggior parte dei data warehouse Amazon Redshift serverless.

  • Ottimizza le prestazioni: questa impostazione dà priorità alle prestazioni. Amazon Redshift scala in modo aggressivo per prestazioni elevate, con potenziali costi più elevati.

  • Posizioni intermedie: puoi anche spostare il cursore su una o due posizioni intermedie tra Bilanciato e Ottimizza i costi oppure Ottimizza le prestazioni. Utilizza queste impostazioni se l’ottimizzazione completa dei costi o delle prestazioni è troppo estrema.

Considerazioni sulla scelta dell’obiettivo prezzo-prestazioni

Puoi utilizzare il cursore prezzo-prestazioni per scegliere l’obiettivo prezzo-prestazioni desiderato per il carico di lavoro. L’algoritmo di dimensionamento e ottimizzazione basati sull’IA apprende nel tempo dalla cronologia dei carichi di lavoro e migliora la precisione delle previsioni e delle decisioni.

Ad esempio

Per questo esempio supponiamo che una query richieda sette minuti e costi 7 USD. La figura seguente mostra i runtime e i costi delle query senza dimensionamento.

Grafico per la query di esempio per il dimensionamento automatico di Amazon Redshift serverless.

Una determinata query potrebbe scalare in modi diversi, come illustrato di seguito. In base all’obiettivo prezzo-prestazioni scelto, il dimensionamento basato sull’IA prevede in che modo la query permetta di bilanciare prestazioni e costi e la ridimensiona di conseguenza. La scelta delle diverse opzioni del cursore produce i seguenti risultati:

Grafico per la query di esempio per il dimensionamento automatico di Amazon Redshift serverless.
  • Ottimizza i costi: con l’opzione Ottimizza i costi, il data warehouse scala favorendo scelte che riducono i costi. Nell’esempio precedente, l’approccio di dimensionamento super lineare dimostra questo comportamento. Il dimensionamento ha luogo solo se può essere eseguito in modo conveniente in base alle previsioni tramite modello di dimensionamento. Se i modelli di dimensionamento prevedono che un dimensionamento ottimizzato in termini di costi non sia possibile per un determinato carico di lavoro, il data warehouse non scala.

  • Bilanciato: con l’opzione Bilanciato, il sistema scala bilanciando le considerazioni su costi e prestazioni, con un potenziale aumento limitato nei costi. L’opzione Bilanciato esegue un dimensionamento del carico di lavoro superlineare, lineare e possibilmente sublineare.

  • Ottimizza le prestazioni: con l’opzione Ottimizza le prestazioni, oltre ai metodi precedenti per migliorare le prestazioni, il sistema scala anche se i costi sono più elevati e possibilmente non proporzionali al miglioramento del runtime. Con Ottimizza le prestazioni, il sistema esegue, se possibile, il dimensionamento superlineare, lineare e sublineare. Più il cursore si avvicina alla posizione Ottimizza le prestazioni, più Amazon Redshift serverless consente il dimensionamento sublineare.

Tieni presente quanto segue quando imposti il cursore Prezzo-prestazioni:

  • Puoi modificare l’impostazione dell’obiettivo prezzo-prestazioni in qualsiasi momento, ma il dimensionamento del carico di lavoro non cambia immediatamente. Il dimensionamento cambia nel tempo man mano che il sistema impara a conoscere il carico di lavoro corrente. Suggeriamo di monitorare un gruppo di lavoro serverless per 1-3 giorni per verificare l’impatto della nuova impostazione.

  • Le opzioni del cursore dell’obiettivo prezzo-prestazioni Capacità massima e Ore RPU massime funzionano insieme. Capacità massima e Ore RPU massime sono i controlli per limitare il numero massimo di RPU che Amazon Redshift serverless consente al data warehouse di scalare e il numero massimo di ore RPU che Amazon Redshift serverless consente al data warehouse di consumare. Amazon Redshift serverless rispetta e applica sempre queste impostazioni, indipendentemente dall’impostazione dell’obiettivo prezzo-prestazioni.

Monitoraggio del dimensionamento automatico delle risorse

Puoi monitorare il dimensionamento dell’RPU basato sull’IA nei modi seguenti:

  • Esamina il grafico dell’utilizzo della capacità di RPU sulla console Amazon Redshift.

  • Monitora la metrica ComputeCapacity in AWS/Redshift-Serverless e Workgroup in CloudWatch.

  • Esegui query sulla vista SYS_QUERY_HISTORY. Fornisci l’ID o il testo della query specifici per identificare il periodo di tempo. Utilizza questo periodo di tempo per eseguire query sulla vista di sistema SYS_SERVERLESS_USAGE per trovare il valore compute_capacity. Il campo compute_capacity mostra le RPU scalate durante il runtime delle query.

Utilizza l’esempio seguenti per eseguire query sulla vista SYS_QUERY_HISTORY. Sostituisci il valore di esempio con il testo della query.

select query_id,query_text,start_time,end_time, elapsed_time/1000000.0 duration_in_seconds from sys_query_history where query_text like '<query_text>' and query_text not like '%sys_query_history%' order by start_time desc

Esegui la seguente query per determinare il dimensionamento di compute_capacity durante il periodo compreso tra start_time e end_time. Sostituisci start_time e end_time nella seguente query con l’output della query precedente:

select * from sys_serverless_usage where end_time >= 'start_time' and end_time <= DATEADD(minute,1,'end_time') order by end_time asc

Per istruzioni dettagliate sull’uso di queste funzionalità, consulta Configurare il monitoraggio, i limiti e gli allarmi in Amazon Redshift serverless per mantenere i costi prevedibili.

Considerazioni sull’utilizzo del dimensionamento e dell’ottimizzazione basati sull’IA

Quando utilizzi il dimensionamento e l’ottimizzazione basati sull’IA, considera quanto segue:

  • Per i carichi di lavoro esistenti in Amazon Redshift serverless che richiedono da 32 a 512 RPU di base, consigliamo di utilizzare il dimensionamento e l’ottimizzazione basati sull’IA di Amazon Redshift serverless per ottenere risultati ottimali. Non consigliamo di utilizzare questa funzionalità per carichi di lavoro con meno di 32 RPU di base o più di 512 RPU di base.

  • Gli obiettivi prezzo-prestazioni ottimizzano automaticamente il carico di lavoro, ma i risultati possono variare. Consigliamo di utilizzare questa funzionalità nel tempo in modo che il sistema possa apprendere i modelli specifici eseguendo un carico di lavoro rappresentativo.

  • Il dimensionamento e l’ottimizzazione basati sull’IA utilizzano tempi ottimali per applicare le ottimizzazioni ai gruppi di lavoro serverless a seconda del carico di lavoro in esecuzione sull’istanza di Amazon Redshift serverless.

Per informazioni sull'ottimizzazione e sul dimensionamento delle risorse basati sull'intelligenza artificiale, guarda il video seguente.