Amazon Redshift non supporterà più la creazione di nuove UDF Python a partire dalla Patch 198. Le UDF Python esistenti continueranno a funzionare fino al 30 giugno 2026. Per ulteriori informazioni, consulta il post del blog
Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Capacità di calcolo per Amazon Redshift Serverless
Con Amazon Redshift serverless, la capacità di calcolo aumenta e si riduce verticalmente in modo automatico per soddisfare i requisiti del carico di lavoro. La capacità di calcolo si riferisce alla potenza di elaborazione e alla memoria allocate ai carichi di lavoro Amazon Redshift serverless. I casi d’uso comuni includono la gestione dei periodi di picco di traffico, l’esecuzione di analisi complesse o l’elaborazione efficiente di grandi volumi di dati. I seguenti termini forniscono dettagli su come Amazon Redshift gestisce la capacità di calcolo.
RPU
Amazon Redshift Serverless misura la capacità del data warehouse in Redshift Processing Units (RPU). Le RPU sono risorse utilizzate per gestire i carichi di lavoro. Una RPU fornisce 16 GB di memoria.
Capacità base
Rappresenta la capacità di base del data warehouse utilizzata da Amazon Redshift per elaborare le query. La capacità di base è specificata in RPU. Puoi impostare una capacità di base in Redshift Processing Unit (RPU). L’impostazione di una capacità base superiore migliora le prestazioni delle query, in particolare per i processi di elaborazione dati che consumano molte risorse. La capacità di base predefinita per Amazon Redshift Serverless è 128 RPU. Puoi modificare l’impostazione Capacità di base da 4 RPU a 512 RPU. Puoi impostare questo valore su 4 RPU o, per le unità da 8, su 8 RPU o più (8, 16, 24... 512). È possibile impostare questo valore utilizzando la AWS console, l'operazione UpdateWorkgroup API o l'update-workgroupoperazione in. AWS CLI
Con una capacità base minima di 4 RPU, hai la flessibilità di eseguire carichi di lavoro sia semplici che complessi in base ai costi dei data warehouse e ai requisiti di capacità. La capacità di 4 RPU di base è destinata ai warehouse che contengono meno di 32 TB di dati, mentre le capacità di 8, 16 e 24 RPU di base sono destinate a carichi di lavoro che richiedono meno di 128 TB di dati. Se i requisiti di dati sono superiori a 128 TB, devi utilizzare almeno 32 RPU di base. Inoltre, per i carichi di lavoro che hanno tabelle con un elevato numero di colonne numeriche e una maggiore simultaneità, consigliamo di utilizzare 32 o più RPU di base.
Il numero massimo di RPU di base disponibili, 1.024, aggiunge il più alto livello di risorse di calcolo ai carichi di lavoro. Ciò offre una maggiore flessibilità per supportare carichi di lavoro di grande complessità e accelera il caricamento e l’esecuzione di query sui dati.
Nota
Di seguito è disponibile una capacità RPU massima di base estesa di 1024. Regioni AWS In altre Regioni, la capacità base massima è 512 RPU.
Stati Uniti orientali (Virginia settentrionale)
Stati Uniti orientali (Ohio)
-
Stati Uniti occidentali (Oregon)
-
Europa (Irlanda)
-
Europa (Francoforte)
Puoi aumentare o diminuire le RPU in unità di 32 quando imposti una capacità base tra 512 e 1.024.
Se gestisci carichi di lavoro più grandi e complessi, valuta la possibilità di aumentare le dimensioni del data warehouse Redshift serverless. I warehouse più grandi hanno accesso a più risorse di calcolo, il che consente loro di elaborare le query in modo più efficiente.
Di seguito sono riportati alcuni casi in cui è utile disporre di una capacità base più elevata:
Ci sono query complesse che richiedono molto tempo per essere eseguite.
Le tabelle hanno un numero elevato di colonne.
Le query hanno un numero elevato di JOIN.
Le query aggregano o scansionano grandi quantità di dati da un’origine esterna, come un data lake.
Per ulteriori informazioni sulle quote e sui limiti di Amazon Redshift serverless, consulta Quote per gli oggetti Amazon Redshift Serverless.
Considerazioni e limitazioni per la capacità di Amazon Redshift serverless
Di seguito sono riportate le considerazioni e limitazioni per la capacità di Amazon Redshift serverless. Per considerazioni generali su Redshift serverless, consulta Considerazioni su quando utilizzare Amazon Redshift Serverless.
-
Le configurazioni da 4 RPU di base supportano una capacità di archiviazione gestita fino a 32 TB. Se utilizzi più di 32 TB di archiviazione gestita, non puoi impostare la RPU di base su meno di 8 RPU.
-
Le configurazioni da 8 o 16 RPU supportano una capacità di archiviazione gestita Redshift fino a 128 TB. Se utilizzi più di 128 TB di archiviazione gestita, non puoi impostare la base su meno di 32 RPU.
-
La modifica della capacità di base del gruppo di lavoro potrebbe annullare alcune delle query in esecuzione sul gruppo di lavoro.
Redshift serverless scala le RPU per il data warehouse utilizzando questi incrementi:
Da 4 a 8 RPU: aumenta in incrementi di 4 RPU.
Da 8 a 512 RPU: aumenta in incrementi di 8 RPU.
Da 512 a 1.024 RPU: aumenta in incrementi di 32 RPU.
-
L’opzione VACUUM BOOST è supportata solo per 8 RPU e più. Per 8 RPU o meno, utilizza invece il comando seguente:
VACUUM [FULL | SORT ONLY | DELETE ONLY | REINDEX | RECLUSTER] [table_name] [TO threshold PERCENT]
Redshift serverless con una capacità di 4 unità di elaborazione Redshift (RPU)
Redshift serverless con una capacità di 4 RPU di base è ideale per carichi di lavoro più piccoli o meno impegnativi. Questo punto di ingresso offre una soluzione flessibile ed economica. Questa configurazione di base supporta i data warehouse con, al massimo, le seguenti risorse:
Fino a 32 TB di archiviazione gestita Redshift.
Un massimo di 100 colonne per tabella
64 GB di memoria
Se hai bisogno di superare queste limitazioni, devi aumentare la capacità base manualmente, anziché affidarti al dimensionamento automatico. Una volta che hai scalato il data warehouse oltre 4 RPU, il data warehouse continua a utilizzare più RPU e Amazon Redshift non riporta il data warehouse a 4 RPU.
Nota
Puoi creare tabelle con più di 100 colonne utilizzando 4 RPU di base. Tuttavia consigliamo di limitare le tabelle a 100 colonne. Il superamento di questo limite può causare l’esaurimento della memoria del data warehouse durante l’esecuzione delle query, con conseguente riduzione delle prestazioni.
È possibile creare data warehouse che utilizzano 4 RPU nei seguenti modi: Regioni AWS
Stati Uniti orientali (Ohio)
Stati Uniti orientali (Virginia settentrionale)
Stati Uniti occidentali (California settentrionale)
Stati Uniti occidentali (Oregon)
Asia Pacifico (Mumbai)
Asia Pacifico (Singapore)
Asia Pacifico (Sydney)
Asia Pacifico (Tokyo)
Europa (Irlanda)
Europa (Stoccolma)
AI-driven scalabilità e ottimizzazione
La funzionalità AI-driven di scalabilità e ottimizzazione è disponibile in tutte le AWS regioni in cui è disponibile Amazon Redshift Serverless.
Amazon Redshift Serverless offre una funzionalità avanzata di AI-driven scalabilità e ottimizzazione per soddisfare diversi requisiti di carichi di lavoro. I data warehouse possono presentare i seguenti problemi di provisioning:
I data warehouse possono essere sottoposti a un provisioning eccessivo per migliorare le prestazioni delle query che richiedono un uso intensivo di risorse
I data warehouse possono essere sottoposti a un provisioning insufficiente per risparmiare sui costi.
Trovare il giusto equilibrio tra prestazioni e costi per i carichi di lavoro del data warehouse è difficile, soprattutto con query ad hoc e volumi di dati in crescita. Quando esegui carichi di lavoro misti, che comprendono query a bassa e alta intensità di risorse, hai bisogno di un dimensionamento intelligente. La funzionalità AI-driven di scalabilità e ottimizzazione ridimensiona automaticamente l'elaborazione o le RPU Serverless in risposta alla crescita dei dati. Questa funzionalità aiuta anche a mantenere le prestazioni delle query entro obiettivi mirati in termini di prezzo-prestazioni. La AI-driven scalabilità e l'ottimizzazione allocano dinamicamente le risorse di elaborazione man mano che i volumi di dati aumentano, garantendo che le query continuino a soddisfare gli obiettivi prestazionali. AI-driven la scalabilità e l'ottimizzazione consentono al servizio di adattarsi senza problemi ai mutevoli requisiti del carico di lavoro, senza la necessità di interventi manuali o di una complessa pianificazione delle capacità.
Amazon Redshift serverless offre una soluzione di dimensionamento più completa e reattiva in base a fattori quali la complessità delle query e il volume dei dati. Questa funzionalità consente di ottimizzare il rapporto prezzo-prestazioni dei carichi di lavoro pur mantenendo la flessibilità necessaria per gestire in modo efficiente carichi di lavoro diversi e set di dati in crescita. Amazon Redshift Serverless può apportare automaticamente AI-driven ottimizzazioni al tuo endpoint Amazon Redshift Serverless per soddisfare gli obiettivi di rapporto prezzo/prestazioni specificati per il tuo gruppo di lavoro Serverless. Questa ottimizzazione automatica del rapporto prezzo/prestazioni è particolarmente utile se non sai quale capacità di base impostare per i carichi di lavoro o se alcune parti del carico di lavoro potrebbero essere più efficienti con un numero maggiore di risorse allocate.
Esempio
Se in genere l’organizzazione esegue carichi di lavoro che richiedono solo 32 RPU ma improvvisamente introduce una query più complessa, potresti non conoscere la capacità base appropriata. L’impostazione di una capacità base più elevata comporta prestazioni migliori, ma i costi potrebbero non corrispondere alle aspettative. Utilizzando AI-driven la scalabilità e l'ottimizzazione delle risorse, Amazon Redshift Serverless regola automaticamente le RPU per soddisfare gli obiettivi di rapporto prezzo/prestazioni, mantenendo al contempo i costi ottimizzati per l'organizzazione. Questa ottimizzazione automatica è utile indipendentemente dalla dimensione del carico di lavoro. L'ottimizzazione automatica consente di raggiungere gli obiettivi di rapporto prezzo/prestazioni dell'organizzazione in presenza di un numero illimitato di query complesse.
Nota
Price-performance gli obiettivi sono un'impostazione specifica del gruppo di lavoro. Gruppi di lavoro diversi possono avere obiettivi di rapporto prezzo/prestazioni diversi.
Per mantenere i costi prevedibili, imposta il limite di capacità massima che Amazon Redshift serverless può allocare ai carichi di lavoro.
Per configurare gli obiettivi di rapporto prezzo/prestazioni, utilizza la console. AWS L'obiettivo prezzo/prestazioni è abilitato per impostazione predefinita per tutti i nuovi gruppi di lavoro Serverless ed è impostato su Balanced. È possibile modificare l'obiettivo di rapporto prezzo/prestazioni dopo aver creato il gruppo di lavoro Serverless.
Come modificare l’obiettivo prezzo-prestazioni per il gruppo di lavoro
Nella console Amazon Redshift serverless scegli Configurazione del gruppo di lavoro.
Scegli il gruppo di lavoro per cui desideri modificare l'obiettivo di rapporto prezzo/prestazioni. Seleziona la scheda Prestazioni e scegli Modifica.
Scegliete Price-performancel'obiettivo e regolate il cursore sull'impostazione desiderata.
Scegli Save changes (Salva modifiche).
Per aggiornare la quantità massima di RPU che Amazon Redshift serverless può allocare al carico di lavoro, scegli la scheda Limiti della sezione Configurazione del gruppo di lavoro.
Puoi utilizzare il cursore Price-performance Target per impostare l'equilibrio desiderato tra costi e prestazioni. Spostando il cursore, puoi scegliere una delle seguenti opzioni:
Ottimizza i costi: questa impostazione dà priorità al risparmio sui costi. Amazon Redshift serverless tenta di aumentare verticalmente in modo automatico la capacità di calcolo. In questo caso non comporta costi aggiuntivi. Amazon Redshift serverless tenta inoltre di ridurre verticalmente le risorse di calcolo a costi inferiori, possibilmente aumentando i runtime delle query.
Bilanciato: questa impostazione crea un equilibrio tra prestazioni e costi. Amazon Redshift serverless scala in base alle prestazioni e può comportare un aumento o una diminuzione moderata dei costi. Questa è l’impostazione consigliata per la maggior parte dei data warehouse Amazon Redshift serverless.
Ottimizza le prestazioni: questa impostazione dà priorità alle prestazioni. Amazon Redshift scala in modo aggressivo per prestazioni elevate, con potenziali costi più elevati.
Posizioni intermedie: puoi anche spostare il cursore su una o due posizioni intermedie tra Bilanciato e Ottimizza i costi oppure Ottimizza le prestazioni. Utilizza queste impostazioni se l’ottimizzazione completa dei costi o delle prestazioni è troppo estrema.
Considerazioni sulla scelta dell’obiettivo prezzo-prestazioni
Puoi utilizzare il cursore prezzo-prestazioni per scegliere l’obiettivo prezzo-prestazioni desiderato per il carico di lavoro. L'algoritmo AI-driven di scalabilità e ottimizzazione apprende nel tempo dalla cronologia del carico di lavoro e migliora la precisione delle previsioni e delle decisioni.
Esempio
Per questo esempio supponiamo che una query richieda sette minuti e costi 7 USD. La figura seguente mostra i runtime e i costi delle query senza dimensionamento.
Una determinata query potrebbe scalare in modi diversi, come illustrato di seguito. In base all'obiettivo di rapporto prezzo/prestazioni scelto, la AI-driven scalabilità prevede in che modo la query permetta di bilanciare prestazioni e costi e la ridimensiona di conseguenza. La scelta delle diverse opzioni del cursore produce i seguenti risultati:
Ottimizza i costi: con l’opzione Ottimizza i costi, il data warehouse scala favorendo scelte che riducono i costi. Nell’esempio precedente, l’approccio di dimensionamento super lineare dimostra questo comportamento. Il dimensionamento ha luogo solo se può essere eseguito in modo conveniente in base alle previsioni tramite modello di dimensionamento. Se i modelli di dimensionamento prevedono che un dimensionamento ottimizzato in termini di costi non sia possibile per un determinato carico di lavoro, il data warehouse non scala.
Bilanciato: con l’opzione Bilanciato, il sistema scala bilanciando le considerazioni su costi e prestazioni, con un potenziale aumento limitato nei costi. L’opzione Bilanciato esegue un dimensionamento del carico di lavoro superlineare, lineare e possibilmente sublineare.
Ottimizza le prestazioni: con l’opzione Ottimizza le prestazioni, oltre ai metodi precedenti per migliorare le prestazioni, il sistema scala anche se i costi sono più elevati e possibilmente non proporzionali al miglioramento del runtime. Con Ottimizza le prestazioni, il sistema esegue, se possibile, il dimensionamento superlineare, lineare e sublineare. Più il cursore si avvicina alla posizione Ottimizza le prestazioni, più Amazon Redshift serverless consente il dimensionamento sublineare.
Quando impostate il cursore, tenete presente quanto segue: Price-Performance
Puoi modificare l’impostazione dell’obiettivo prezzo-prestazioni in qualsiasi momento, ma il dimensionamento del carico di lavoro non cambia immediatamente. Il dimensionamento cambia nel tempo man mano che il sistema impara a conoscere il carico di lavoro corrente. Suggeriamo di monitorare un gruppo di lavoro serverless per 1-3 giorni per verificare l’impatto della nuova impostazione.
Le opzioni di scorrimento relative al rapporto qualità-prezzo Max capacity e Max funzionano insieme. RPU-hours Capacità massima e Max RPU-hours sono i controlli per limitare il numero massimo di RPU che Amazon Redshift Serverless consente al data warehouse di scalare e il numero massimo di ore RPU che Amazon Redshift Serverless consente al data warehouse di consumare. Amazon Redshift serverless rispetta e applica sempre queste impostazioni, indipendentemente dall’impostazione dell’obiettivo prezzo-prestazioni.
Monitoraggio del dimensionamento automatico delle risorse
Puoi monitorare la scalabilità della AI-driven RPU nei seguenti modi:
Esamina il grafico dell’utilizzo della capacità di RPU sulla console Amazon Redshift.
Monitora la
ComputeCapacitymetrica sottoAWS/Redshift-Serverlesse dentro.WorkgroupCloudWatchEsegui query sulla vista SYS_QUERY_HISTORY. Fornisci l’ID o il testo della query specifici per identificare il periodo di tempo. Utilizza questo periodo di tempo per eseguire query sulla vista di sistema SYS_SERVERLESS_USAGE per trovare il valore
compute_capacity. Il campocompute_capacitymostra le RPU scalate durante il runtime delle query.
Utilizza l’esempio seguenti per eseguire query sulla vista SYS_QUERY_HISTORY. Sostituisci il valore di esempio con il testo della query.
select query_id,query_text,start_time,end_time, elapsed_time/1000000.0 duration_in_seconds from sys_query_history where query_text like '<query_text>' and query_text not like '%sys_query_history%' order by start_time desc
Esegui la seguente query per determinare il dimensionamento di compute_capacity durante il periodo compreso tra start_time e end_time. Sostituisci start_time e end_time nella seguente query con l’output della query precedente:
select * from sys_serverless_usage where end_time >= 'start_time' and end_time <= DATEADD(minute,1,'end_time') order by end_time asc
Per istruzioni dettagliate sull’uso di queste funzionalità, consulta Configurare il monitoraggio, i limiti e gli allarmi in Amazon Redshift serverless per mantenere i costi prevedibili
Considerazioni sull'utilizzo della AI-driven scalabilità e dell'ottimizzazione
Considerate quanto segue quando utilizzate il AI-driven ridimensionamento e l'ottimizzazione:
Per i carichi di lavoro esistenti su Amazon Redshift Serverless che richiedono da 8 a 512 RPU di base, consigliamo di utilizzare la scalabilità e l'ottimizzazione di Amazon Redshift AI-driven Serverless per risultati ottimali. Non è consigliabile utilizzare questa funzionalità per carichi di lavoro con 4 RPU di base o più di 512 RPU di base.
Price-performance gli obiettivi ottimizzano automaticamente il carico di lavoro, sebbene i risultati possano variare. Consigliamo di utilizzare questa funzionalità nel tempo in modo che il sistema possa apprendere i modelli specifici eseguendo un carico di lavoro rappresentativo.
AI-driven il ridimensionamento e l'ottimizzazione utilizzano tempi ottimali per applicare le ottimizzazioni ai gruppi di lavoro Serverless a seconda del carico di lavoro in esecuzione sull'istanza Serverless di Amazon Redshift.
Per ulteriori informazioni sulle AI-driven ottimizzazioni e sulla scalabilità delle risorse, guarda il seguente video.