Préparation des données à grande échelle à l’aide d’applications Amazon EMR sans serveur ou de clusters Amazon EMR dans Studio

Amazon SageMaker Studio et son ancienne version, Studio Classic, fournissent aux scientifiques des données et aux ingénieurs en apprentissage automatique (ML) des outils permettant d'analyser et de préparer des données à grande échelle. L’analyse, la transformation et la préparation de grandes quantités de données sont des étapes fondamentales de tout flux de travail de science des données et de ML. Studio et Studio Classic sont tous deux intégrés à Amazon EMR, ce qui permet aux utilisateurs de gérer des flux de travail interactifs de préparation des données et d'apprentissage automatique à grande échelle au sein de leurs JupyterLab ordinateurs portables.

Amazon EMR est une plateforme de big data gérée, dotée de ressources pour vous aider à exécuter des tâches de traitement de données distribuées à l’échelle du pétaoctet à l’aide de cadres d’analytique open source sur AWS , tels qu’Apache Spark, Apache Hive, Presto, HBase et Flink, entre autres. Grâce à l'intégration de Studio et Studio Classic à Amazon EMR, vous pouvez créer, parcourir, découvrir et vous connecter à des clusters Amazon EMR sans quitter votre bloc-notes JupyterLab ou celui de Studio Classic. Vous pouvez également surveiller et déboguer vos charges de travail Spark en accédant en un clic à l’interface utilisateur Spark depuis votre bloc-notes.

Vous devriez envisager les clusters Amazon EMR pour vos charges de travail de préparation des données si vous avez des exigences de traitement de données complexes, de longue durée ou à grande échelle, impliquant d’énormes quantités de données, si vous avez besoin d’une personnalisation et d’une intégration extensives avec d’autres services, si vous devez exécuter des applications personnalisées ou si vous envisagez d’exécuter un large éventail de cadres de traitement de données distribués au-delà d’Apache Spark.

À l'aide d'une image de SageMaker distribution 1.10 ou d'une version supérieure, vous pouvez également vous connecter à des applications EMR sans serveur interactives directement depuis vos JupyterLab ordinateurs portables dans AI Studio. SageMaker L’intégration de Studio avec EMR sans serveur vous permet d’exécuter des cadres d’analytique open source du big data, tels qu’Apache Spark et Apache Hive sans configurer, gérer ni mettre à l’échelle les clusters Amazon EMR. EMR sans serveur provisionne et gère automatiquement les ressources de calcul et de mémoire sous-jacentes en fonction des besoins de votre application EMR sans serveur. Il augmente ou réduit verticalement les ressources de manière dynamique, en vous facturant la quantité de ressources de vCPU, de mémoire et de stockage consommée par vos applications. Cette approche sans serveur vous permet d'exécuter des charges de travail interactives de préparation des données à partir de vos JupyterLab ordinateurs portables sans vous soucier de la gestion du cluster, tout en optimisant le taux d'utilisation des instances et en optimisant les coûts.

Vous devriez envisager EMR sans serveur pour vos charges de travail interactives de préparation des données si vos charges de travail sont de courte durée ou intermittentes et ne nécessitent pas de cluster persistant ; si vous préférez une expérience sans serveur avec provisionnement et résiliation automatiques des ressources, évitant ainsi les frais de gestion de l’infrastructure ; ou si vos tâches interactives de préparation de données tournent principalement autour d’Apache Spark.

Contenu

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Paramètres de connexion

Configuration de l’accès réseau