Réaliser une preuve de concept (POC) pour Amazon Redshift - Amazon Redshift

Amazon Redshift ne prendra plus en charge la création de nouvelles fonctions Python définies par l’utilisateur à compter du 1er novembre 2025. Si vous souhaitez utiliser des fonctions Python définies par l’utilisateur, créez-les avant cette date. Les fonctions Python définies par l’utilisateur existantes continueront de fonctionner normalement. Pour plus d’informations, consultez le billet de blog .

Réaliser une preuve de concept (POC) pour Amazon Redshift

Amazon Redshift est un entrepôt de données cloud populaire, qui propose un service cloud entièrement géré s’intégrant au lac de données Amazon Simple Storage Service, aux flux en temps réel, aux flux de travail de machine learning (ML), aux flux de travail transactionnels d’une entreprise, etc. Les sections suivantes vous guident tout au long du processus de réalisation d’une preuve de concept (POC) sur Amazon Redshift. Les informations présentées ici vous aident à définir des objectifs pour votre preuve de concept et à tirer parti des outils qui peuvent automatiser le provisionnement et la configuration des services pour votre preuve de concept.

Note

Pour obtenir une copie de ces informations au format PDF, cliquez sur le lien Exécuter votre propre preuve de concept Redshift sur la page des ressources Amazon Redshift.

Lorsque vous réalisez un une preuve de concept d’Amazon Redshift, vous testez, démontrez et adoptez des fonctionnalités telles que des fonctionnalités de sécurité de pointe, une mise à l’échelle élastique, une intégration et une ingestion faciles, ainsi que des options d’architecture de données décentralisées flexibles.

Affiche une description des étapes du flux de preuve de concept.

Suivez les étapes ci-dessous pour réussir une preuve de concept.

Étape 1 : Définir la portée de votre preuve de concept

Montre que l’étape de définition de la portée est l’étape actuelle du flux de preuve de concept.

Lorsque vous réalisez une preuve de concept, vous pouvez choisir d’utiliser vos propres données ou d’utiliser des jeux de données d’analyse comparative. Lorsque vous choisissez vos propres données, vous exécutez vos propres requêtes sur ces données. Avec les données d’analyse comparative, des exemples de requêtes sont fournis avec le point de référence. Consultez Utiliser des exemples de jeux de données pour plus de détails si vous n’êtes pas encore prêt à réaliser une preuve de concept avec vos propres données.

En général, nous recommandons d’utiliser deux semaines de données pour une preuve de concept Amazon Redshift.

Commencez par effectuer les opérations suivantes :

  1. Identifiez vos exigences opérationnelles et fonctionnelles, puis revenez en arrière. Les exemples les plus courants sont les suivants : amélioration des performances, réduction des coûts, test d’une nouvelle charge de travail ou d’une nouvelle fonctionnalité, ou comparaison entre Amazon Redshift et un autre entrepôt de données.

  2. Fixez des objectifs spécifiques qui deviennent les critères de réussite de la preuve de concept. Par exemple, pour des performances plus rapides, dressez une liste des cinq principaux processus que vous souhaitez accélérer et incluez les durées d’exécution actuelles ainsi que la durée d’exécution requise. Il peut s’agir de rapports, de requêtes, de processus ETL, d’ingestion de données ou de tout autre problème actuel.

  3. Identifiez la portée et les artefacts spécifiques nécessaires pour exécuter les tests. Quels jeux de données devez-vous migrer ou ingérer en continu dans Amazon Redshift, et quels sont les requêtes et les processus nécessaires pour exécuter les tests en fonction des critères de réussite ? Il existe deux façons de procéder :

    Apporter vos propres données
    • Pour tester vos propres données, établissez la liste minimale viable d’artefacts de données nécessaires pour tester vos critères de réussite. Par exemple, si votre entrepôt de données actuel compte 200 tables, mais que les rapports que vous souhaitez tester n’en ont besoin que de 20, votre preuve de concept peut être exécutée plus rapidement en utilisant uniquement le plus petit sous-ensemble de tables.

    Utilisation des exemples de jeux de données
    • Si vos propres jeux de données ne sont pas prêts, vous pouvez toujours commencer à réaliser une preuve de concept sur Amazon Redshift en utilisant les jeux de données de référence tels que TPC-DS ou TPC-H et en exécutant des exemples de requêtes d’analyse comparative pour exploiter la puissance d’Amazon Redshift. Ces jeux de données sont accessibles depuis votre entrepôt de données Amazon Redshift une fois celui-ci créé. Pour obtenir des instructions détaillées sur la façon d’accéder à ces jeux de données et obtenir des exemples de requête, consultez Étape 2 : Lancer Amazon Redshift.

Étape 2 : Lancer Amazon Redshift

Montre que l’étape de lancement d’Amazon Redshift est l’étape actuelle du flux de preuve de concept.

Amazon Redshift vous permet d’obtenir plus rapidement des informations grâce à un entreposage rapide, simple et sécurisé des données dans le cloud avec mise à l’échelle. Vous pouvez démarrer rapidement en lançant votre entrepôt sur la console Redshift sans serveur et passer des données aux informations en quelques secondes. Avec Redshift sans serveur, vous pouvez vous concentrer sur les résultats de votre entreprise sans vous soucier de la gestion de votre entrepôt de données.

Configuration d’Amazon Redshift sans serveur

La première fois que vous utilisez Redshift sans serveur, la console vous guide à travers les étapes nécessaires au lancement de votre entrepôt. Vous pourriez également être éligible à un crédit correspondant à votre utilisation de Redshift sans serveur sur votre compte. Pour plus d'informations sur le choix d'un essai gratuit, consultez la rubrique Essai gratuit d'Amazon Redshift. Suivez les étapes décrites dans la section Création d’un entrepôt de données avec Redshift sans serveur du Guide de démarrage Amazon Redshift pour créer un entrepôt de données avec Redshift sans serveur. Si vous n’avez pas de jeu de données à charger, le guide explique également comment charger un exemple de jeu de données.

Si vous avez déjà lancé Redshift sans serveur dans votre compte, suivez les étapes décrites dans Création d’un groupe de travail avec un espace de noms dans le Guide de gestion Amazon Redshift. Une fois votre entrepôt disponible, vous pouvez choisir de charger les exemples de données disponibles dans Amazon Redshift. Pour plus d’informations sur l’utilisation d’Amazon Redshift Query Editor v2 pour charger des données, consultez Chargement d’exemples de données dans le Guide de gestion Amazon Redshift.

Si vous apportez vos propres données au lieu de charger l’exemple de jeu de données, consultez Étape 3 : Charger vos données.

Étape 3 : Charger vos données

Montre que l’étape de chargement est l’étape actuelle du flux de preuve de concept.

Après avoir lancé Redshift sans serveur, l’étape suivante consiste à charger vos données pour la preuve de concept. Que vous téléchargiez un simple fichier CSV, que vous ingériez des données semi-structurées depuis S3 ou que vous diffusiez directement des données, Amazon Redshift offre la flexibilité nécessaire pour déplacer rapidement et facilement les données depuis la source vers les tables Amazon Redshift.

Choisissez l’une des méthodes suivantes pour charger vos données :

Charger un fichier local

Pour une ingestion et une analyse rapides, vous pouvez utiliser Amazon Redshift Query Editor V2 pour charger facilement des fichiers de données depuis votre bureau local. Il a la capacité de traiter des fichiers dans différents formats tels que CSV, JSON, AVRO, PARQUET, ORC, etc. Pour permettre à vos utilisateurs, en tant qu’administrateur, de charger des données depuis un poste de travail local à l’aide de l’éditeur de requêtes v2, vous devez spécifier un compartiment Amazon S3 commun, et le compte utilisateur doit être configuré avec les autorisations appropriées. Vous pouvez suivre le chargement des données simplifié et sécurisé dans Amazon Redshift à l’aide de l’éditeur de requêtes v2 pour obtenir des instructions étape par étape.

Charger un fichier Amazon S3

Pour charger des données depuis un compartiment Amazon S3 dans Amazon Redshift, commencez par utiliser la commande COPY, en spécifiant l’emplacement Amazon S3 source et la table Amazon Redshift cible. Assurez-vous que les rôles et autorisations IAM sont correctement configurés pour autoriser Amazon Redshift à accéder au compartiment Amazon S3 désigné. Suivez le Didacticiel : Chargement de données depuis Amazon S3 pour obtenir des instructions détaillées. Vous pouvez également choisir l’option Charger les données dans l’éditeur de requêtes v2 pour charger directement les données depuis votre compartiment S3.

Ingestion continue des données

Autocopy (en version préliminaire) est une extension de la commande COPY et automatise le chargement continu des données à partir des compartiments Amazon S3. Lorsque vous créez une tâche COPY, Amazon Redshift détecte quand de nouveaux fichiers Amazon S3 sont créés dans un chemin spécifié, puis les charge automatiquement sans votre intervention. Amazon Redshift assure le suivi des fichiers chargés afin de vérifier qu’ils ne sont chargés qu’une seule fois. Pour savoir comment créer des tâches COPY, consultez COPY JOB

Note

La copie automatique est actuellement en version préliminaire et n’est prise en charge que dans des clusters alloués dans les Régions AWS spécifiques. Pour créer un cluster de prévisualisation à des fins d’autocopie, consultez Créer une intégration d’événements S3 pour copier automatiquement des fichiers à partir de compartiments Amazon S3.

Charger vos données de streaming

L’ingestion en streaming garantit une ingestion à faible latence et à haute vitesse des données de flux provenant d’Amazon Kinesis Data Streams et d’Amazon Managed Streaming pour Apache Kafka dans Amazon Redshift. L’ingestion en streaming Amazon Redshift utilise une vue matérialisée, qui est mise à jour directement à partir du flux à l’aide de l’actualisation automatique. La vue matérialisée est mappée à la source de données du flux. Vous pouvez effectuer des filtrages et agrégations sur les données de flux dans le cadre de la définition de la vue matérialisée. Pour obtenir des instructions détaillées sur le chargement de données à partir d’un flux, consultez Mise en route d’Amazon Kinesis Data Streams ou Mise en route d’Amazon Managed Streaming pour Apache Kafka.

Étape 4 : Analyser vos données

Montre que l’étape d’analyse est l’étape actuelle du flux de preuve de concept.

Après avoir créé votre groupe de travail et votre espace de noms Redshift sans serveur, et après avoir chargé vos données, vous pouvez immédiatement exécuter des requêtes en ouvrant l’éditeur de requêtes v2 depuis le panneau de navigation de la console Redshift sans serveur. Vous pouvez utiliser l’éditeur de requête v2 pour tester la fonctionnalité ou les performances des requête par rapport à vos propres jeux de données.

Requête à l’aide d’Amazon Redshift Query Editor v2.

Vous pouvez accéder à l’éditeur de requête v2 à partir de la console Amazon Redshift. Consultez Simplifier votre analyse de données avec Amazon Redshift Query Editor V2 pour un guide complet sur la façon de configurer, connecter et exécuter des requêtes avec l’éditeur de requêtes v2.

Sinon, si vous souhaitez exécuter un test de charge dans le cadre de votre preuve de concept, vous pouvez le faire en suivant les étapes suivantes pour installer et exécuter Apache JMeter.

Exécuter un test de charge à l’aide d’Apache JMeter

Pour effectuer un test de charge afin de simuler des utilisateurs « N » soumettant des requêtes simultanément à Amazon Redshift, vous pouvez utiliser Apache JMeter, un outil open source basé sur Java.

Pour installer et configurer Apache JMeter afin qu’il s’exécute sur votre groupe de travail Redshift sans serveur, suivez les instructions de la section Automatiser les tests de charge Amazon Redshift avec AWS Analytics Automation Toolkit. Il utilise le kit d’outils AWS Analytics Automation (AAA), un utilitaire open source permettant de déployer dynamiquement des solutions Redshift, pour lancer automatiquement ces ressources. Si vous avez chargé vos propres données dans Amazon Redshift, veillez à exécuter l’option Étape #5 — Personnaliser SQL, afin de vous assurer de fournir les instructions SQL appropriées que vous souhaitez tester par rapport à vos tables. Testez chacune de ces instructions SQL une fois à l’aide de l’éditeur de requêtes v2 pour vous assurer qu’elles s’exécutent sans erreur.

Une fois que vous avez terminé de personnaliser vos instructions SQL et de finaliser votre plan de test, enregistrez et exécutez votre plan de test par rapport à votre groupe de travail Redshift sans serveur. Pour suivre la progression de votre test, ouvrez la console Redshift sans serveur, accédez à Surveillance des requêtes et des bases de données, choisissez l’onglet Historique des requêtes et consultez les informations relatives à vos requêtes.

Pour les indicateurs de performance, choisissez l’onglet Performances de la base de données sur la console Redshift sans serveur, pour surveiller les indicateurs tels que les Connexions aux bases de données et Utilisation de l’UC. Vous pouvez consulter ici un graphique pour surveiller la capacité RPU utilisée et observer comment Redshift sans serveur évolue automatiquement pour répondre aux demandes de charge de travail simultanées pendant que le test de charge est en cours d’exécution sur votre groupe de travail.

Exemple de graphique illustrant la capacité moyenne de RPU utilisée.

Les connexions aux bases de données constituent un autre indicateur utile à surveiller lors de l’exécution du test de charge pour voir comment votre groupe de travail gère de nombreuses connexions simultanées à un moment donné afin de répondre aux demandes croissantes de charge de travail.

Exemple de graphique illustrant les connexions aux bases de données.

Étape 5 : Optimiser

Montre que l’étape d’optimisation est l’étape actuelle du flux de preuve de concept.

Amazon Redshift permet à des dizaines de milliers d’utilisateurs de traiter des exaoctets de données chaque jour et d’optimiser leurs charges de travail d’analyse en proposant une variété de configurations et de fonctionnalités adaptées à des cas d’utilisation individuels. Lorsqu’ils choisissent entre ces options, les clients recherchent des outils qui les aident à déterminer la configuration d’entrepôt de données la plus optimale pour prendre en charge leur charge de travail Amazon Redshift.

Test Drive

Vous pouvez utiliser Test Drive pour rejouer automatiquement votre charge de travail existante sur des configurations potentielles et analyser les résultats correspondants afin d’évaluer la cible optimale vers laquelle migrer votre charge de travail. Consultez Trouver la meilleure configuration Amazon Redshift pour votre charge de travail à l’aide de Redshift Test Drive pour plus d’informations sur l’utilisation de Test Drive pour évaluer différentes configurations Amazon Redshift.