AWS Glue Streaming - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

AWS Glue Streaming

Le streaming AWS Glue, composant d’AWS Glue, vous permet de gérer efficacement les données de streaming en temps quasi réel, ce qui vous permet d’effectuer des tâches cruciales telles que l’ingestion de données, le traitement et le machine learning. Grâce au cadre Apache Spark Streaming, le streaming AWS Glue fournit un service sans serveur capable de gérer les données de streaming à grande échelle. AWS Glue fournit diverses optimisations en plus d’Apache Spark, telles que l’infrastructure sans serveur, l’autoscaling, le développement visuel des tâches, les blocs-notes instantanés pour les tâches de streaming et d’autres améliorations de performances.

Cas d’utilisation pour le streaming

Certains cas d’utilisation courants pour le streaming AWS Glue incluent :

Traitement des données en temps quasi réel : le streaming AWS Glue permet aux entreprises de traiter les données de streaming en temps quasi réel, ce qui leur permet d’en tirer des informations et de prendre des décisions en temps opportun sur la base des informations les plus récentes.

Détection des fraudes : vous pouvez utiliser le streaming AWS Glue pour analyser en temps réel les données de streaming, ce qui les rend utiles pour détecter les activités frauduleuses, telles que les fraudes par carte de crédit, les intrusions sur le réseau ou les escroqueries en ligne. En traitant et en analysant en permanence les données entrantes, vous pouvez rapidement identifier les schémas suspects ou les anomalies.

Analytique des réseaux sociaux : le streaming AWS Glue peut traiter les données des réseaux sociaux en temps réel, telles que les tweets, les publications ou les commentaires, permettant aux entreprises de suivre les tendances, d’analyser les sentiments et de gérer la réputation de la marque en temps réel.

Analytique de l’Internet des objets (IoT) : le streaming AWS Glue convient à la gestion et à l’analyse de flux de données à haute vitesse générés par des appareils IoT, des capteurs et des machines connectées. Il permet le suivi en temps réel, la détection des anomalies, la maintenance prédictive et d’autres cas d’utilisation de l’analytique IoT.

Analyse du flux de clics : le streaming AWS Glue peut traiter et analyser les données du flux de clics en temps réel provenant de sites Web ou d’applications mobiles. Cela permet aux entreprises de mieux comprendre le comportement des utilisateurs, de personnaliser les expériences utilisateur et d’optimiser les campagnes marketing en fonction des données du flux de clics en temps réel.

Surveillance et analyse des journaux : le streaming AWS Glue permet de traiter et d’analyser en continu les données des journaux provenant de serveurs, d’applications ou de périphériques réseau en temps réel. Cela permet de détecter les anomalies, de résoudre les problèmes et de surveiller l’état et les performances du système.

Systèmes de recommandation : le streaming AWS Glue peut traiter les données d’activité des utilisateurs en temps réel et mettre à jour les modèles de recommandation de manière dynamique. Cela permet des recommandations personnalisées et en temps réel basées sur le comportement et les préférences des utilisateurs.

Voici quelques exemples de la diversité des cas d’utilisation dans lesquels le streaming AWS Glue peut être appliqué. Son intégration à l’écosystème AWS et aux services gérés en fait un choix pratique pour le traitement et l’analytique des flux en temps réel dans le cloud.

Quels sont les avantages liés à l’utilisation du streaming AWS Glue ?

Les avantages de l’utilisation du streaming AWS Glue sont les suivants :

  • Sans serveur : le streaming AWS Glue se fait sans serveur, ce qui élimine le besoin de gérer l’infrastructure. Cela réduit les frais opérationnels et permet aux utilisateurs de se concentrer sur les tâches de traitement et d’analytique des données plutôt que sur la gestion de l’infrastructure.

  • Autoscaling : le streaming AWS Glue fournit des fonctionnalités d’autoscaling, ajustant dynamiquement la capacité de traitement en fonction de la charge de travail. Il monte en puissance ou se met à l’échelle horizontale automatiquement pour gérer les fluctuations du volume de données, garantissant ainsi des performances et une utilisation des ressources optimales.

  • Développement visuel : le développement des tâches de streaming peut être complexe. Le streaming AWS Glue répond à ce défi en proposant AWS Glue Studio, un outil de création visuelle. AWS Glue Studio simplifie le processus de création de flux de travail de streaming et permet aux développeurs de concevoir et de gérer visuellement des applications de streaming, réduisant ainsi la courbe d’apprentissage et augmentant la productivité.

  • Rentable : en tant que service sans serveur, le streaming AWS Glue permet de réduire les coûts en éliminant le besoin de provisionnement et de maintenance de l’infrastructure. Les utilisateurs sont facturés en fonction des ressources consommées lors de l’exécution des tâches de streaming, ce qui permet une optimisation des coûts et une mise à l’échelle en fonction de l’utilisation réelle.

  • Gestion des charges de travail complexes : le streaming AWS Glue est conçu pour gérer des charges de travail de streaming complexes. Il peut traiter et analyser de grands volumes de données en temps réel, prendre en charge des transformations avancées et s’intégrer à d’autres services AWS, permettant ainsi des pipelines de données en streaming et des flux de travail d’analytique sophistiqués.

  • Pas de dépendance : le streaming AWS Glue apporte de la flexibilité et évite la dépendance vis-à-vis d’un fournisseur. Les utilisateurs peuvent tirer parti du streaming AWS Glue dans le cadre d’un écosystème AWS plus large, en l’intégrant parfaitement à d’autres services AWS. Cela permet une intégration facile avec les sources de données, les applications et les services existants sans être lié à une technologie ou à une plateforme spécifique.

Quand utiliser le streaming AWS Glue ?

Il existe de nombreuses options en ce qui concerne les cas d’utilisation du streaming. Nous recommandons le streaming AWS Glue dans les scénarios suivants.

  1. Si vous utilisez déjà AWS Glue ou Spark pour le traitement par lots, le streaming AWS Glue est le choix idéal pour vous. Il permet une transition fluide vers la création de tâches de streaming sans qu’il soit nécessaire d’apprendre un nouveau langage ou un nouveau cadre. En tirant parti de vos connaissances et de votre infrastructure existantes, le streaming AWS Glue simplifie le processus de développement des tâches et vous permet d’étendre facilement vos capacités de traitement des données à des scénarios de streaming en temps réel.

  2. Si vous avez besoin d’un service ou d’un produit unifié pour gérer les charges de travail par lots, de streaming et d’événements, le streaming AWS Glue est la solution qu’il vous faut. Grâce au streaming AWS Glue, vous pouvez regrouper vos besoins en matière de traitement des données dans un cadre unique, éliminant ainsi la complexité liée à la gestion de plusieurs systèmes. Cela permet le développement et la maintenance efficaces de divers flux de données tout en garantissant la cohérence et la compatibilité entre les différents types de charge de travail.

  3. Le streaming AWS Glue convient parfaitement aux scénarios impliquant des volumes de données en streaming considérables et des transformations complexes, telles que des jointures entre des flux ou des bases de données relationnelles. Il peut traiter et analyser efficacement des flux de données massifs, ce qui vous permet de gérer facilement des charges de travail exigeantes. Qu’il s’agisse d’une ingestion de données à grande vitesse ou de manipulations de données complexes, la capacité de mise à l’échelle et les capacités de traitement avancées du streaming AWS Glue garantissent des performances optimales et des résultats précis.

  4. Si vous préférez une approche visuelle pour créer des tâches de streaming, AWS Glue propose AWS Glue Studio, avec lequel vous pouvez concevoir et gérer visuellement vos applications de streaming, simplifiant ainsi le processus de développement. Cette interface intuitive permet aux développeurs de créer, configurer et surveiller les flux de travail de streaming à l’aide d’une interface visuelle, réduisant ainsi la courbe d’apprentissage et augmentant la productivité.

  5. Le streaming AWS Glue est un excellent choix pour les cas d’utilisation en temps quasi réel où des contrats de niveau de service (SLA) stricts sont supérieurs à 10 secondes.

  6. Si vous créez un lac de données transactionnel à l’aide d’Apache Iceberg, Apache Hudi ou Delta Lake, le streaming AWS Glue fournit un support natif pour ces formats de table ouverts. Cette intégration fluide vous permet de traiter les données de streaming directement à partir de ces lacs de données transactionnels, garantissant ainsi la cohérence, l’intégrité et la compatibilité des données.

  7. Lorsque vous devez ingérer des données de streaming pour diverses cibles de données : le streaming AWS Glue fournit des cibles natives à diverses cibles de données telles qu’Amazon Redshift, Amazon RDS, Amazon Aurora, Oracle, SQL Server et d’autres cibles.

Sources de données prises en charge

Le streaming AWS Glue prend en charge les sources de données suivantes :

  • Amazon Kinesis

  • Amazon MSK (Managed Streaming for Apache Kafka)

  • Self-managed Apache Kafka

Cibles de données prises en charge

Le streaming AWS Glue prend en charge diverses cibles de données, telles que :

  • Les cibles de données prises en charge par le Catalogue de données AWS Glue

  • Amazon S3

  • Amazon Redshift

  • MySQL

  • PostgreSQL

  • Oracle

  • Microsoft SQL Server

  • Snowflake

  • Toute base de données pouvant être connectée à l’aide de JDBC

  • Apache Iceberg, Delta et Apache Hudi

  • Connecteurs AWS Glue Marketplace