Interroger votre lac de données

Vous pouvez utiliser Amazon Redshift pour interroger des données dans Amazon S3 sans avoir à les charger dans des tables Amazon Redshift. Amazon Redshift fournit une fonctionnalité SQL conçue pour le traitement analytique en ligne rapide (OLAP) de très grands jeux de données stockés dans des clusters Amazon Redshift et des lacs de données Amazon S3. Vous pouvez interroger des données dans de nombreux formats, notamment Iceberg, Parquet, ORC, RcFile,,, TextFile SequenceFile, RegexSerde OpenCSV et AVRO. Vous créez des schémas et des tables externes pour définir la structure des fichiers dans Amazon S3. Ensuite, vous utilisez un catalogue de données externe tel que votre propre AWS Glue métastore Apache Hive. Les modifications apportées à un type de catalogue de données externe sont instantanément répercutées dans vos clusters Amazon Redshift.

Une fois que vos données sont enregistrées dans un catalogue de AWS Glue données et activées avec AWS Lake Formation, vous pouvez commencer à interroger votre lac de données.

Vous pouvez également partitionner les tables externes en une ou plusieurs colonnes pour optimiser les performances de la requête en éliminant les partitions. Vous pouvez interroger les tables externes et les joindre avec les tables Amazon Redshift. Vous pouvez accéder à des tables externes à partir de plusieurs clusters Amazon Redshift et interroger les données Amazon S3 depuis n'importe quel cluster de la même AWS région. Lors de la mise à jour des fichiers de données Amazon S3, les données peuvent être interrogées immédiatement depuis n'importe lequel de vos clusters Amazon Redshift.

Utilisation du moteur de requête de lac de données intégré pour RG et Redshift Serverless

Les clusters Amazon Redshift RG et Amazon Redshift Serverless incluent un moteur de requête de lac de données intégré qui s'exécute sur les propres ressources de calcul du cluster, fournissant une expérience unifiée pour les cas d'utilisation des lacs de données et des entrepôts de données.

Le moteur de requête intégré au lac de données élimine la nécessité d'utiliser Redshift Spectrum et élimine les frais Redshift Spectrum associés. Aucune configuration supplémentaire n'est requise pour activer le moteur de requête de lac de données intégré, car il est activé par défaut.

Note

Dans certains cas, vous pouvez observer des performances plus lentes sur RG que sur les clusters RA3 exécutant Redshift Spectrum, qui évolue indépendamment à l'aide de ressources de calcul dédiées. Si vous constatez un ralentissement des performances des requêtes, envisagez d'ajouter des nœuds ou de passer à des instances RG de plus grande taille.

Utilisation de Redshift Spectrum pour DC2 et RA3

Sur les clusters provisionnés DC2 et RA3, Redshift Spectrum réside sur des serveurs Amazon Redshift dédiés, indépendants de votre cluster. Il transmet à la couche Redshift Spectrum de nombreuses tâches nécessitant une importante capacité de calcul, telles que le regroupement et le filtrage des prédicats. Redshift Spectrum évolue également intelligemment pour tirer parti du traitement massivement parallèle.

Pour plus d'informations sur Redshift Spectrum, y compris sur l'utilisation de Redshift Spectrum et des lacs de données, consultez la section Premiers pas avec Amazon Redshift Spectrum dans le Manuel du développeur de bases de données Amazon Redshift.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Interrogation de données en dehors de votre base de données Amazon Redshift

Interroger des sources de données distantes