AWS Glue pour Spark et AWS Glue pour Ray - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

AWS Glue pour Spark et AWS Glue pour Ray

Dans AWS Glue sur Apache Spark (AWS Glue ETL), vous pouvez utiliser PySpark pour écrire du code Python afin de gérer les données à grande échelle. Spark est une solution familière à ce problème, mais les ingénieurs de données formés à Python peuvent trouver la transition peu intuitive. Le modèle Spark DataFrame n'est pas parfaitement digne de Python, qui reflète le langage Scala et l'environnement d'exécution Java sur lesquels il repose.

Dans AWS Glue, vous pouvez utiliser des tâches shell Python pour exécuter des intégrations de données Python natives. Ces tâches s'exécutent sur une instance Amazon EC2 unique et sont limitées par les capacités de cette instance. Elle limite le débit des données que vous pouvez traiter et devient coûteuse à gérer lorsqu'il s'agit de Big Data.

AWS Glue pour Ray vous permet d'augmenter l'échelle des charges de travail Python sans investir lourdement dans l'apprentissage de Spark. Vous pouvez tirer parti de certains scénarios dans lesquels Ray est plus performant. En vous offrant le choix, vous pouvez utiliser les points forts de Spark et de Ray.

AWS Glue ETL et AWS Glue pour Ray sont différents dans le fond, et proposent donc des fonctionnalités différentes. Consultez la documentation pour identifier les fonctionnalités prises en charge.

Qu'est-ce que AWS Glue pour Ray ?

Ray est une infrastructure de calcul distribuée open source que vous pouvez utiliser pour augmenter les charges de travail, en mettant l'accent sur Python. Pour plus d'informations sur Ray, consultez le site Web de Ray. AWS Glue Les tâches et les sessions interactives de Ray vous permettent d'utiliser Ray dans AWS Glue.

Vous pouvez utiliser AWS Glue pour Ray pour écrire des scripts Python pour des calculs qui s'exécuteront en parallèle sur plusieurs machines. Dans les tâches et les sessions interactives Ray, vous pouvez utiliser des bibliothèques Python familières telles que Pandas, afin de faciliter l'écriture et l'exécution de vos flux de travail. Pour plus d'informations sur les jeux de données Ray, veuillez consulter la rubrique Jeux de données Ray dans la documentation Ray. Pour plus d'informations sur pandas, veuillez consulter le site Web Pandas.

Lorsque vous utilisez AWS Glue pour Ray, vous pouvez exécuter vos flux de travail Pandas sur des big data à l'échelle de l'entreprise, avec quelques lignes de code seulement. Vous pouvez créer une tâche Ray à partir de la console AWS Glue ou du kit SDK AWS. Vous pouvez également ouvrir une session interactive AWS Glue pour exécuter votre code dans un environnement Ray sans serveur. Les tâches visuelles dans AWS Glue Studio ne sont pas encore prises en charge.

Les tâches AWS Glue pour Ray vous permettent d'exécuter un script en fonction d'un calendrier ou en réponse à un événement issu d'Amazon EventBridge. Les tâches stockent des informations relatives aux journaux et des statistiques de surveillance dans CloudWatch qui vous permettent de comprendre l'intégrité et la fiabilité de votre script. Pour plus d'informations sur l'utilisation du système de tâches AWS Glue, consultez Utilisation des tâches Ray dans AWS Glue.

Ray automatise la mise à l'échelle du code Python en répartissant le traitement sur un cluster de machines qu'il reconfigure en temps réel, en fonction de la charge. Cette opération peut entraîner une amélioration des performances par dollar pour certaines charges de travail. Avec les tâches Ray, nous avons intégré la mise à l'échelle automatique en mode natif dans le modèle de tâche AWS Glue pour vous permettre de tirer pleinement parti de cette fonctionnalité. Les tâches Ray s'exécutent sur AWS Graviton, ce qui génère de meilleures performances globales en termes de prix.

Outre les économies de coûts qu'elle permet, vous pouvez utiliser la mise à l'échelle automatique native pour exécuter les charges de travail Ray sans consacrer de temps à la maintenance, au réglage et à l'administration des clusters. Vous pouvez utiliser des bibliothèques open source familières et prêtes à l'emploi, telles que Pandas, et le kit SDK AWS pour Pandas. Elles améliorent la vitesse d'itération pendant que vous développez sur AWS Glue pour Ray. En utilisant AWS Glue pour Ray, vous serez en mesure de développer et d'exécuter rapidement des charges de travail d'intégration de données rentables.