Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Verbindung zu Daten in Ray-Aufträgen
AWS Glue-Ray-Aufträge können eine breite Palette von Python-Paketen verwenden, die für die schnelle Integration von Daten konzipiert sind. Wir stellen einen minimalen Satz an Abhängigkeiten bereit, um Ihre Umgebung nicht zu überladen. Weitere Informationen darüber, was standardmäßig enthalten ist, finden Sie unter Mit Ray-Aufträgen bereitgestellte Module.
Anmerkung
AWS Glue Extract, Transform, Load (ETL) bietet die DynamicFrame-Abstraktion zur Optimierung von ETL-Workflows, bei denen Sie Schemaunterschiede zwischen Zeilen in Ihrem Datensatz auflösen. AWS Glue ETL bietet zusätzliche Features – Auftragslesezeichen und Gruppierung von Eingabedateien. Wir bieten derzeit keine entsprechenden Features in Ray-Aufträgen an.
AWS Glue für Spark bietet direkte Unterstützung für die Verbindung mit bestimmten Datenformaten, Quellen und Senken. In Ray decken das AWS-SDK für Pandas und aktuelle Bibliotheken von Drittanbietern diesen Bedarf weitgehend ab. Sie müssen diese Bibliotheken zu Rate ziehen, um zu verstehen, welche Funktionen verfügbar sind.
Die Integration von AWS Glue für Ray mit Amazon VPC ist derzeit nicht verfügbar. Auf Ressourcen in Amazon VPC kann ohne eine öffentliche Route nicht zugegriffen werden. Weitere Informationen zur Verwendung von AWS Glue mit Amazon VPC finden Sie unter Konfigurieren von Schnittstellen-VPC-Endpunkten (AWS PrivateLink) für AWS Glue (AWS PrivateLink).
Allgemeine Bibliotheken für die Arbeit mit Daten in Ray
Ray Data – Ray Data bietet Methoden zum Umgang mit gängigen Datenformaten, Quellen und Senken. Weitere Informationen zu unterstützten Formaten und Quellen in Ray Data finden Sie unter Eingabe/Ausgabe
Ray bietet bestimmte Hinweise zu Anwendungsfällen, in denen Ray Data möglicherweise die beste Lösung für Ihre Aufgabe sein könnte. Weitere Informationen finden Sie in Ray-Dokumentation unter den Ray-Anwendungsfällen
AWS-SDK für Pandas (awswrangler) – AWS-SDK für Pandas ist ein AWS-Produkt, das saubere, getestete Lösungen zum Lesen von und Schreiben in AWS-Services bereitstellt, wenn Ihre Transformationen Daten mit Pandas DataFrames verwalten. Weitere Informationen zu unterstützten Formaten und Quellen im AWS-SDK für Pandas finden Sie in der API-Referenz
Beispiele zum Lesen und Schreiben von Daten mit dem AWS-SDK für Pandas finden Sie unter Schnellstart
Modin – Modin ist eine Python-Bibliothek, die gängige Pandas-Operationen auf verteilbare Weise implementiert. Weitere Informationen zu Modin finden Sie in der Modin-Dokumentation
Wenn Sie Modin und das AWS-SDK für Pandas zusammen in einer Ray-Umgebung ausführen, können Sie häufige ETL-Aufgaben mit leistungsstarken Ergebnissen ausführen. Weitere Informationen zur Verwendung von Modin mit dem AWS-SDK für Pandas finden Sie unter Maßstabsgetreu
Andere Frameworks – Weitere Informationen zu den von Ray unterstützten Frameworks finden Sie in der Ray-Dokumentation unter The Ray Ecosystem
Herstellen einer Verbindung zu Daten über den Data Catalog
Die Verwaltung Ihrer Daten über den Data Catalog in Verbindung mit Ray-Aufträgen wird durch das AWS-SDK für Pandas unterstützt. Weitere Informationen finden Sie im Glue-Katalog