AWS Glue für Spark und AWS Glue für Ray - AWS Glue

AWS Glue für Spark und AWS Glue für Ray

In AWS Glue in Apache Spark (AWS Glue ETL) können Sie PySpark verwenden, um Python-Code zu schreiben und Daten in großem Umfang zu verarbeiten. Spark ist eine vertraute Lösung für dieses Problem, aber Dateningenieure mit einem Python-fokussierten Hintergrund können den Übergang als unintuitiv empfinden. Das Spark-DataFrame-Modell ist nicht nahtlos „Pythonic“, was die Scala-Sprache und die Java-Laufzeitumgebung widerspiegelt, auf der es aufbaut.

In AWS Glue können Sie Python-Shell-Aufträge verwenden, um native Python-Datenintegrationen auszuführen. Diese Aufträge werden auf einer einzigen Amazon-EC2-Instance ausgeführt und sind durch die Kapazität dieser Instance begrenzt. Dies schränkt den Datendurchsatz ein, den Sie verarbeiten können, und wird bei Big Data teuer in der Wartung.

AWS Glue für Ray ermöglicht es Ihnen, Python-Workloads hochzuskalieren, ohne nennenswerte Investitionen in das Erlernen von Spark zu tätigen. Sie können bestimmte Szenarien nutzen, in denen Ray eine bessere Leistung erbringt. Indem wir Ihnen eine Auswahl anbieten, können Sie die Stärken von Spark und Ray nutzen.

AWS Glue ETL und AWS Glue für Ray unterscheiden sich darunter, daher unterstützen sie unterschiedliche Features. Bitte prüfen Sie die Dokumentation, um die unterstützten Features zu bestimmen.

Was ist AWS Glue für Ray?

Ray ist ein Open-Source-Framework für verteilte Berechnungen, mit dem Sie Workloads mit Schwerpunkt auf Python skalieren können. Weitere Informationen über Ray finden Sie auf der Ray-Website. AWS Glue Mit Ray-Aufträgen und interaktiven Sitzungen können Sie Ray innerhalb von AWS Glue verwenden.

Mit AWS Glue für Ray können Sie Python-Skripte für Berechnungen schreiben, die parallel auf mehreren Computern ausgeführt werden. In Ray-Aufträgen und interaktiven Sitzungen können Sie vertraute Python-Bibliotheken wie Pandas verwenden, um Ihre Workflows einfach zu schreiben und auszuführen. Weitere Informationen zu Ray-Datensätzen finden Sie unter Ray-Datensätze in der Ray-Dokumentation. Weitere Informationen über Pandas finden Sie auf der Pandas-Website.

Wenn Sie AWS Glue für Ray verwenden, können Sie Ihre Pandas-Workflows mit Big Data auf Unternehmensebene ausführen – mit nur wenigen Codezeilen. Sie können einen Ray-Auftrag über die AWS Glue-Konsole oder das AWS-SDK erstellen. Sie können auch eine AWS Glue interaktive Sitzung öffnen, um Ihren Code in einer Serverless-Ray-Umgebung auszuführen. Visuelle Aufträge in AWS Glue Studio werden noch nicht unterstützt.

Aufträge von AWS Glue für Ray ermöglichen es Ihnen, ein Skript nach einem Zeitplan oder als Reaktion auf ein Ereignis von Amazon EventBridge auszuführen. Aufträge speichern Protokollinformationen und Überwachungsstatistiken in CloudWatch, die es Ihnen ermöglichen, den Zustand und die Zuverlässigkeit Ihres Skripts nachzuvollziehen. Weitere Informationen über das AWS Glue-Auftragssystem finden Sie unter Arbeiten mit Ray-Aufträgen in AWS Glue.

Ray automatisiert die Skalierung von Python-Code, indem es die Verarbeitung auf einen Cluster von Computern verteilt, die es je nach Auslastung in Echtzeit neu konfiguriert. Dies kann bei bestimmten Workloads zu einer verbesserten Leistung pro Dollar führen. Bei Ray-Aufträgen haben wir Auto Scaling nativ in das AWS Glue-Auftragsmodell integriert, so dass Sie die Vorteile dieses Features voll nutzen können. Ray-Aufträge werden auf AWS Graviton ausgeführt, was zu einer höheren Gesamtpreisleistung führt.

Zusätzlich zu den Einsparungen können Sie das native Auto Scaling verwenden, um Ray-Workloads auszuführen, ohne Zeit in die Cluster-Wartung, -Abstimmung und -Verwaltung zu investieren. Sie können bereits vertraute Open-Source-Bibliotheken wie Pandas und das AWS-SDK für Pandas verwenden. Diese verbessern die Iterationsgeschwindigkeit, während Sie auf AWS Glue für Ray entwickeln. Wenn Sie AWS Glue für Ray verwenden, können Sie schnell kostengünstige Workloads zur Datenintegration entwickeln und ausführen.