Amazon Redshift non supporterà più la creazione di nuove UDF Python a partire dal 1º novembre 2025. Se desideri utilizzare le UDF Python, creale prima di tale data. Le UDF Python esistenti continueranno a funzionare normalmente. Per ulteriori informazioni, consulta il post del blog
Esecuzione di query nel data lake
È possibile usare Amazon Redshift Spectrum per eseguire query sui dati nei file Amazon S3 senza doverli caricare nelle tabelle Amazon Redshift. Amazon Redshift fornisce funzionalità SQL progettate per l'elaborazione analitica online veloce (OLAP) di dataset di grandi dimensioni archiviati sia nei cluster Amazon Redshift che nei data lake Amazon S3. È possibile eseguire query sui dati in molti formati, tra cui Parquet, ORC, RCFile, TextFile, SequenceFile, RegexSerde, OpenCSV e AVRO. È possibile creare schemi e tabelle esterni per definire la struttura dei file in Amazon S3. Quindi, si utilizza un catalogo di dati esterno, ad esempio AWS Glue o il proprio metastore Apache Hive. Le modifiche al tipo di catalogo di dati sono immediatamente disponibili per tutti i cluster Amazon Redshift.
Dopo che i dati sono stati registrati con un catalogo di dati di AWS Glue e dopo averli abilitati con AWS Lake Formation, sarà possibile interrogarli tramite Redshift Spectrum.
Redshift Spectrum si trova su dei server Amazon Redshift dedicati indipendenti dal cluster. Redshift Spectrum completa numerose attività che richiedono un importante capacità di calcolo, come l'aggregazione e il filtraggio di predicati, sul livello Redshift Spectrum. Redshift Spectrum inoltre si dimensiona in modo intelligente per trarre vantaggio dall'elaborazione massiva parallela.
È possibile partizionare le tabelle esterne in una o più colonne per ottimizzare le prestazioni delle query tramite l'eliminazione delle partizioni. È possibile eseguire query e join sulle tabelle esterne con le tabelle Amazon Redshift. È possibile aggiungere le tabelle esterne da più cluster Amazon Redshift ed eseguire una query sui dati di Amazon S3 da qualsiasi cluster nella stessa regione AWS. Quando aggiorni i file di dati Amazon S3, i dati possono essere sottoposti a query immediatamente da qualsiasi cluster Amazon Redshift.
Per ulteriori informazioni su Redshift Spectrum, incluse le modalità di utilizzo di Redshift Spectrum e data lake, consultare Nozioni di base su Amazon Redshift Spectrum nella Guida per gli sviluppatori di database di Amazon Redshift.