Tutoriel : Intégrer à Apache Spark pour importer ou exporter des données

Apache Spark est un moteur open source pour l'analyse de données à grande échelle. Apache Spark vous permet d'analyser plus efficacement les données stockées dans Amazon Keyspaces. Vous pouvez également utiliser Amazon Keyspaces pour fournir aux applications un accès en single-digit-millisecond lecture cohérent aux données analytiques de Spark. Le connecteur open source Spark Cassandra simplifie la lecture et l'écriture de données entre Amazon Keyspaces et Spark.

La prise en charge par Amazon Keyspaces du connecteur Spark Cassandra rationalise l'exécution des charges de travail Cassandra dans les pipelines d'analyse basés sur Spark en utilisant un service de base de données entièrement géré et sans serveur. Avec Amazon Keyspaces, vous n'avez pas à craindre que Spark soit en concurrence pour les mêmes ressources d'infrastructure sous-jacentes que vos tables. Les tables Amazon Keyspaces augmentent ou diminuent automatiquement en fonction du trafic de votre application.

Le didacticiel suivant explique les étapes et les meilleures pratiques requises pour lire et écrire des données sur Amazon Keyspaces à l'aide du connecteur Spark Cassandra. Ce didacticiel explique comment migrer des données vers Amazon Keyspaces en chargeant des données depuis un fichier avec le connecteur Spark Cassandra et en les écrivant dans une table Amazon Keyspaces. Le didacticiel explique ensuite comment relire les données d'Amazon Keyspaces à l'aide du connecteur Spark Cassandra. Vous devez procéder ainsi pour exécuter des charges de travail Cassandra dans des pipelines d'analyse basés sur Spark.

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Étape 7 : (Facultatif) Nettoyer

Prérequis