Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Comment sélectionner le bon outil pour le téléchargement groupé ou la migration de données vers Amazon Keyspaces
Dans cette section, vous pouvez passer en revue les différents outils que vous pouvez utiliser pour télécharger ou migrer des données en masse vers Amazon Keyspaces, et apprendre à sélectionner l'outil approprié en fonction de vos besoins. En outre, cette section fournit une vue d'ensemble et des exemples d'utilisation des step-by-step didacticiels disponibles qui montrent comment importer des données dans Amazon Keyspaces.
Pour passer en revue les stratégies disponibles pour migrer les charges de travail d'Apache Cassandra vers Amazon Keyspaces, consultez. Créez un plan de migration pour migrer d'Apache Cassandra vers Amazon Keyspaces
-
Outils de migration
Pour les migrations de grande envergure, pensez à utiliser un outil d'extraction, de transformation et de chargement (ETL). Vous pouvez l'utiliser AWS Glue pour effectuer rapidement et efficacement des migrations de transformation de données. Pour de plus amples informations, veuillez consulter Processus de migration hors ligne : Apache Cassandra vers Amazon Keyspaces.
CQLReplicator— CQLReplicator est un utilitaire open source disponible sur Github
qui vous aide à migrer des données d'Apache Cassandra vers Amazon Keyspaces en temps quasi réel. Pour de plus amples informations, veuillez consulter Migrez les données en utilisant CQLReplicator.
Pour en savoir plus sur l'utilisation d'Amazon Managed Streaming pour Apache Kafka afin de mettre en œuvre un processus de migration en ligne avec des écritures doubles, consultez les instructions relatives à la migration continue des données d'Apache Cassandra vers Amazon Keyspaces
. Pour savoir comment utiliser le connecteur Apache Cassandra Spark pour écrire des données sur Amazon Keyspaces, consultez. Tutoriel : Intégrer à Apache Spark pour importer ou exporter des données
Commencez rapidement à charger des données dans Amazon Keyspaces à l'aide de la
COPY FROM
commande cqlsh. cqlsh est inclus dans Apache Cassandra et convient parfaitement au chargement de petits ensembles de données ou de données de test. Pour step-by-step obtenir des instructions, voirTutoriel : Chargement de données dans Amazon Keyspaces à l'aide de cqlsh.Vous pouvez également utiliser le DataStax Bulk Loader pour Apache Cassandra pour charger des données dans Amazon Keyspaces à l'aide
dsbulk
de la commande. DSBulkfournit des fonctionnalités d'importation plus robustes que cqlsh et est disponible depuis le GitHub référentiel.Pour step-by-step obtenir des instructions, voirTutoriel : Chargement de données dans Amazon Keyspaces à l'aide de DSBulk.
Considérations générales relatives aux téléchargements de données vers Amazon Keyspaces
-
Divisez le téléchargement des données en composants plus petits.
Tenez compte des unités de migration suivantes et de leur empreinte potentielle en termes de taille des données brutes. Le téléchargement de petites quantités de données en une ou plusieurs phases peut contribuer à simplifier votre migration.
Par cluster : migrez toutes vos données Cassandra en une seule fois. Cette approche peut convenir aux petits clusters.
-
Par espace de touches ou par table : divisez votre migration en groupes d'espaces de touches ou de tables. Cette approche peut vous aider à migrer les données par étapes en fonction de vos besoins pour chaque charge de travail.
Par données — Envisagez de migrer les données pour un groupe spécifique d'utilisateurs ou de produits, afin de réduire encore davantage la taille des données.
-
Priorisez les données à télécharger en premier en fonction de la simplicité.
Déterminez si vous avez des données qui pourraient d'abord être migrées plus facilement, par exemple des données qui ne changent pas à des moments précis, des données provenant de traitements par lots effectués la nuit, des données non utilisées pendant les heures hors ligne ou des données provenant d'applications internes.