Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Préparation des données à grande échelle à l’aide d’applications Amazon EMR sans serveur ou de clusters Amazon EMR dans Studio
Amazon SageMaker Studio et son ancienne version, Studio Classic, fournissent aux scientifiques des données et aux ingénieurs en apprentissage automatique (ML) des outils permettant d'analyser et de préparer des données à grande échelle. L’analyse, la transformation et la préparation de grandes quantités de données sont des étapes fondamentales de tout flux de travail de science des données et de ML. Studio et Studio Classic sont tous deux intégrés à Amazon EMR, ce qui permet aux utilisateurs de gérer des flux de travail interactifs de préparation des données et d'apprentissage automatique à grande échelle au sein de leurs JupyterLab ordinateurs portables.
Amazon EMR est une plateforme de mégadonnées gérée dotée de ressources pour vous aider à exécuter des tâches de traitement de données distribué à l'échelle de plusieurs pétaoctets à l'aide de frameworks d'analyse open source AWS tels qu'Apache Spark, Apache
Vous devriez envisager les clusters Amazon EMR pour vos charges de travail de préparation des données si vous avez des exigences de traitement de données complexes, de longue durée ou à grande échelle, impliquant d’énormes quantités de données, si vous avez besoin d’une personnalisation et d’une intégration extensives avec d’autres services, si vous devez exécuter des applications personnalisées ou si vous envisagez d’exécuter un large éventail de cadres de traitement de données distribués au-delà d’Apache Spark.
À l'aide d'une image de SageMaker distribution 1.10 ou d'une version supérieure, vous pouvez également vous connecter à des applications EMR sans serveur interactives directement depuis vos JupyterLab ordinateurs portables dans AI Studio. SageMaker L’intégration de Studio avec EMR sans serveur vous permet d’exécuter des cadres d’analytique open source du big data, tels qu’Apache Spark
Vous devriez envisager EMR sans serveur pour vos charges de travail interactives de préparation des données si vos charges de travail sont de courte durée ou intermittentes et ne nécessitent pas de cluster persistant ; si vous préférez une expérience sans serveur avec provisionnement et résiliation automatiques des ressources, évitant ainsi les frais de gestion de l’infrastructure ; ou si vos tâches interactives de préparation de données tournent principalement autour d’Apache Spark.