Présentation d’Amazon Redshift Spectrum

Cette rubrique décrit les détails relatifs à l’utilisation de Redshift Spectrum pour lire efficacement depuis Amazon S3.

Note

Les instances Amazon Redshift DC2 et RA3 utilisent Redshift Spectrum pour exécuter des requêtes de lac de données sur un parc de serveurs dédiés en dehors du cluster. Les instances Amazon Redshift RG et Amazon Redshift Serverless incluent un moteur de requête de lac de données intégré qui s'exécute sur les propres ressources de calcul du cluster. Pour plus d'informations, consultez la section Interrogation de votre lac de données.

Amazon Redshift Spectrum réside sur des serveurs Amazon Redshift dédiés qui sont indépendants de votre cluster. Amazon Redshift transmet à la couche Redshift Spectrum de nombreuses tâches nécessitant une importante capacité de calcul, telles que le regroupement et le filtrage des prédicats. Ainsi, les requêtes Redshift Spectrum consomment nettement moins de capacité de traitement du cluster que les autres requêtes. Redshift Spectrum permet en outre un dimensionnement intelligent. Selon les demandes de vos requêtes, Redshift Spectrum est à même d’utiliser des milliers d’instances, afin de tirer parti du traitement massivement parallèle.

Pour créer des tables Redshift Spectrum, vous devez définir la structure de vos fichiers et enregistrer ces derniers en tant que tables dans un catalogue de données externe, Le catalogue de données externe peut être AWS Glue le catalogue de données fourni avec Amazon Athena ou votre propre métastore Apache Hive. Vous pouvez créer et gérer des tables externes soit à partir d’Amazon Redshift à l’aide de commandes DDL (data definition language), soit à l’aide de tout autre outil qui se connecte au catalogue de données externes. Les modifications apportées au catalogue de données externe sont immédiatement disponibles pour n’importe lequel de vos clusters Amazon Redshift.

Vous avez aussi la possibilité de partitionner les tables externes en une ou plusieurs colonnes, ce qui dans certains cas permet d’optimiser les performances, L’amélioration se produit parce que l’optimiseur de requêtes Amazon Redshift élimine les partitions qui ne contiennent pas de données pour la requête.

Les vues matérialisées sur les tables Spectrum peuvent considérablement améliorer les coûts et les performances. Pour plus d’informations, consultez Vues matérialisées sur des tables de lacs de données externes dans Amazon Redshift Spectrum.

Une fois que vos tables Redshift Spectrum ont été définies, vous pouvez interroger et joindre les tables comme vous le faites avec n’importe quelle autre table Amazon Redshift. Redshift Spectrum ne prend pas en charge les opérations de mise à jour des tables externes. Vous pouvez ajouter des tables Redshift Spectrum à plusieurs clusters Amazon Redshift et interroger les mêmes données sur Amazon S3 à partir de n'importe quel cluster de la même région. AWS Lorsque vous mettez à jour des fichiers de données Amazon S3, les données sont immédiatement disponibles pour être interrogées à partir de n’importe lequel de vos clusters Amazon Redshift.

Le catalogue de AWS Glue données auquel vous accédez peut être crypté pour renforcer la sécurité. Si le AWS Glue catalogue est crypté, vous avez besoin de la clé AWS Key Management Service (AWS KMS) AWS Glue pour accéder au AWS Glue catalogue. AWS Glue le chiffrement du catalogue n'est pas disponible dans toutes les AWS régions. Pour obtenir la liste des AWS régions prises en charge, consultez la section Chiffrement et accès sécurisé AWS Glue dans le guide du AWS Glue développeur.Pour plus d'informations sur le chiffrement du catalogue de AWS Glue données, voir Chiffrer votre catalogue de AWS Glue données dans le guide du AWS Glue développeur.

Note

Vous ne pouvez pas afficher les détails des tables Redshift Spectrum en utilisant les mêmes ressources que celles que vous utilisez pour les tables Amazon Redshift standard, telles que PG_TABLE_DEF, STV_TBL_PERM, PG_CLASS ou information_schema. Si votre outil de Business Intelligence ou d’analyse ne reconnaît pas les tables externes Redshift Spectrum, configurez votre application de façon à interroger SVV_EXTERNAL_TABLES et SVV_EXTERNAL_COLUMNS.

Régions Amazon Redshift Spectrum

Redshift Spectrum est disponible Régions AWS là où Amazon Redshift est disponible, sauf indication contraire dans la documentation spécifique à la région. Pour connaître Région AWS la disponibilité dans les régions commerciales, consultez la section Points de terminaison de service pour l'API Redshift dans le. Référence générale d'Amazon Web Services

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Amazon Redshift Spectrum

Limitations propres à Amazon Redshift Spectrum