Interroger votre lac de données - Amazon Redshift

Amazon Redshift ne prendra plus en charge la création de nouvelles fonctions Python définies par l’utilisateur à compter du 1er novembre 2025. Si vous souhaitez utiliser des fonctions Python définies par l’utilisateur, créez-les avant cette date. Les fonctions Python définies par l’utilisateur existantes continueront de fonctionner normalement. Pour plus d’informations, consultez le billet de blog .

Interroger votre lac de données

Vous pouvez utiliser Amazon Redshift Spectrum pour interroger les données dans les fichiers Amazon S3 sans avoir à les charger dans les tables Amazon Redshift. Amazon Redshift fournit une fonctionnalité SQL conçue pour le traitement analytique en ligne rapide (OLAP) de très grands jeux de données stockés dans des clusters Amazon Redshift et des lacs de données Amazon S3. Vous pouvez interroger des données dans de nombreux formats, notamment Parquet, ORC, RCFile, TextFile, SequenceFile, RegexSerde, OpenCSV et AVRO. Vous créez des schémas et des tables externes pour définir la structure des fichiers dans Amazon S3. Ensuite, utilisez un catalogue de données externe tel que AWS Glue ou votre métastore Apache Hive. Les modifications apportées à un type de catalogue de données externe sont instantanément répercutées dans vos clusters Amazon Redshift.

Une fois vos données enregistrées dans un catalogue de données AWS Glue et activées avec AWS Lake Formation, vous pouvez les interroger à l'aide de Redshift Spectrum.

Redshift Spectrum réside sur des serveurs Amazon Redshift dédiés indépendants de votre cluster. Il transmet à la couche Redshift Spectrum de nombreuses tâches nécessitant une importante capacité de calcul, telles que le regroupement et le filtrage des prédicats. Redshift Spectrum évolue également intelligemment pour tirer parti du traitement massivement parallèle.

Vous pouvez également partitionner les tables externes en une ou plusieurs colonnes pour optimiser les performances de la requête en éliminant les partitions. Vous pouvez interroger les tables externes et les joindre avec les tables Amazon Redshift. Vous pouvez ajouter des tables Redshift Spectrum à plusieurs clusters Amazon Redshift et interroger les mêmes données dans Amazon S3 à partir de n'importe quel cluster de la même région AWS. Lors de la mise à jour des fichiers de données Amazon S3, les données peuvent être interrogées immédiatement depuis n'importe lequel de vos clusters Amazon Redshift.

Pour plus d'informations sur Redshift Spectrum, y compris sur l'utilisation de Redshift Spectrum et des lacs de données, consultez la section Premiers pas avec Amazon Redshift Spectrum dans le Manuel du développeur de bases de données Amazon Redshift.