Bibliothèques communes pour travailler avec des données dans Ray Connexion aux données via le catalogue de données

Connexion aux données dans les tâches Ray

Important

AWS Glue for Ray n'est plus ouvert à de nouveaux clients. Les clients existants peuvent continuer à utiliser le service normalement. Pour plus d'informations, consultez la section AWS Glue relative à la fin du support de Ray.

AWS Glue Ray Jobs peut utiliser un large éventail de packages Python conçus pour vous permettre d'intégrer rapidement des données. Nous fournissons un ensemble minimal de dépendances afin de ne pas encombrer votre environnement. Pour plus d'informations sur ce qui est inclus par défaut, consultez Modules fournis avec les tâches Ray.

Note

AWS Glue extract, transform, and load (ETL) fournit l' DynamicFrame abstraction nécessaire pour rationaliser les flux de travail ETL dans lesquels vous résolvez les différences de schéma entre les lignes de votre ensemble de données. AWS Glue L'ETL fournit des fonctionnalités supplémentaires : signets de tâches et regroupement de fichiers d'entrée. Actuellement, nous ne proposons pas de fonctionnalités correspondantes dans les tâches Ray.

AWS Glue for Spark fournit un support direct pour la connexion à certains formats de données, sources et récepteurs. Dans Ray, le kit AWS SDK pour Pandas et les bibliothèques tierces actuelles répondent en grande partie à ce besoin. Vous devrez consulter ces bibliothèques pour connaître les fonctionnalités disponibles.

AWS Glue pour Ray, l'intégration avec Amazon VPC n'est pas disponible actuellement. Les ressources d'un Amazon VPC ne seront pas accessibles sans routage public. Pour plus d'informations sur l'utilisation AWS Glue avec Amazon VPC, consultez. Configuration de points de terminaison d’un VPC d’interface (AWS PrivateLink) pour AWS Glue (AWS PrivateLink)

Bibliothèques communes pour travailler avec des données dans Ray

Ray Data : Ray Data fournit des méthodes pour gérer les formats de données, les sources et les récepteurs courants. Pour plus d'informations sur les formats et les sources pris en charge dans Ray Data, consultez Input/Output dans la documentation Ray Data. Ray Data est une bibliothèque d'opinion, plutôt qu'une bibliothèque générale, destinée à manipuler des jeux de données.

Ray fournit des conseils sur les cas d'utilisation où Ray Data pourrait être la meilleure solution pour votre tâche. Pour en savoir plus, consultez Ray use cases dans la documentation Ray.

AWS SDK pour pandas (awswrangler) — Le AWS SDK pour pandas est un AWS produit qui fournit des solutions propres et testées pour la lecture et l'écriture vers des AWS services lorsque vos transformations gèrent des données avec des pandas. DataFrames Pour plus d'informations sur les formats et les sources pris en charge dans le AWS SDK pour pandas, consultez la référence d'API dans la documentation du AWS SDK pour pandas.

Pour des exemples de lecture et d'écriture de données avec le AWS SDK pour pandas, voir Quick Start dans la documentation du AWS SDK pour pandas. Le AWS SDK pour pandas ne fournit pas de transformations pour vos données. Il fournit uniquement une prise en charge pour la lecture et l'écriture à partir de sources.

Modin : Modin est une bibliothèque Python qui implémente les opérations Pandas courantes de manière distribuable. Pour plus d'informations sur Modin, consultez Modin documentation. Modin lui-même ne fournit pas de prise en charge de la lecture et de l'écriture à partir de sources. Il fournit des implémentations distribuées de transformations courantes. Modin est supporté par le AWS SDK pour pandas.

Lorsque vous exécutez Modin et le AWS SDK pour pandas ensemble dans un environnement Ray, vous pouvez effectuer des tâches ETL courantes avec des résultats performants. Pour plus d'informations sur l'utilisation de Modin avec le AWS SDK pour pandas, voir At scale dans la documentation du AWS SDK pour pandas.

Autres cadres : pour plus d’informations sur les cadres pris en charge par Ray, consultez The Ray Ecosystem dans la documentation Ray. Nous ne prenons pas en charge les autres frameworks AWS Glue de Ray.

Connexion aux données via le catalogue de données

La gestion de vos données via le catalogue de données en conjonction avec les tâches Ray est prise en charge par le AWS SDK pour pandas. Pour plus d'informations, consultez Glue Catalog sur le site AWS Web du SDK pour pandas.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Fournir des fichiers et des bibliothèques Python

Utilisation des AWS SDK