Connexion aux données dans les tâches Ray
Les tâches AWS Glue Ray peuvent utiliser un large éventail de packages Python conçus pour vous permettre d'intégrer rapidement des données. Nous fournissons un ensemble minimal de dépendances afin de ne pas encombrer votre environnement. Pour plus d'informations sur ce qui est inclus par défaut, consultez Modules fournis avec les tâches Ray.
Note
Extraction, transformation et chargement (ETL) AWS Glue fournit l'abstraction DynamicFrame pour rationaliser les flux de travail ETL qui vous permettent de résoudre les différences de schéma entre les lignes de votre jeu de données. ETL AWS Glue fournit des fonctionnalités supplémentaires : signets de tâches et groupements des fichiers d'entrée. Actuellement, nous ne proposons pas de fonctionnalités correspondantes dans les tâches Ray.
AWS Glue pour Spark fournit une prise en charge directe de la connexion à certains formats de données, sources et récepteurs. Dans Ray, le kit AWS SDK pour Pandas et les bibliothèques tierces actuelles répondent en grande partie à ce besoin. Vous devrez consulter ces bibliothèques pour connaître les fonctionnalités disponibles.
L'intégration AWS Glue pour Ray avec Amazon VPC n'est pas disponible actuellement. Les ressources d'un Amazon VPC ne seront pas accessibles sans routage public. Pour plus d'informations sur l'utilisation de AWS Glue avec les Amazon VPC, consultez Configuration de points de terminaison d’un VPC d’interface (AWS PrivateLink) pour AWS Glue (AWS PrivateLink).
Bibliothèques communes pour travailler avec des données dans Ray
Ray Data : Ray Data fournit des méthodes pour gérer les formats de données, les sources et les récepteurs courants. Pour plus d'informations sur les formats et les sources pris en charge dans Ray Data, consultez Input/Output
Ray fournit des conseils sur les cas d'utilisation où Ray Data pourrait être la meilleure solution pour votre tâche. Pour en savoir plus, consultez Ray use cases
Kit AWS SDK pour Pandas (aswswrangler) : le kit AWS SDK est un produit AWS qui fournit des solutions nettes et testées pour lire et écrire vers des services AWS lorsque vos transformations gèrent des données avec Pandas DataFrames. Pour plus d'informations sur les formats et les sources pris en charge dans le kit AWS SDK pour Pandas, consultez API Reference
Pour obtenir des exemples de lecture et d'écriture de données avec le kit AWS SDK pour Pandas, consultez le Quick Start
Modin : Modin est une bibliothèque Python qui implémente les opérations Pandas courantes de manière distribuable. Pour plus d'informations sur Modin, consultez Modin documentation
Lorsque vous exécutez Modin et le kit AWS SDK pour Pandas ensemble dans un environnement Ray, vous pouvez effectuer des tâches ETL courantes avec des résultats performants. Pour plus d'informations sur l'utilisation de Modin avec le kit AWS SDK pour Pandas, consultez At scale
Autres cadres : pour plus d’informations sur les cadres pris en charge par Ray, consultez The Ray Ecosystem
Connexion aux données via le catalogue de données
La gestion de vos données via le catalogue de données en conjonction avec les tâches Ray est prise en charge par le kit AWS SDK pour Pandas. Pour plus d'informations, consultez le Catalogue Glue