Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
DynamicFrameReader classe
– méthodes –
__init__
__init__(glue_context)
glue_context– GlueContext classe à utiliser.
from_rdd
from_rdd(data, name, schema=None, sampleRatio=None)
Lit un DynamicFrame à partir d'un RDD (Resilient Distributed Dataset).
data– Ensemble de données à partir duquel lire.name– Nom à partir duquel lire.schema– Schéma à lire (facultatif).sampleRatio– Exemple de ratio (facultatif).
from_options
from_options(connection_type, connection_options={}, format=None,
format_options={}, transformation_ctx="")
Lit un DynamicFrame à l'aide de la connexion et du format spécifiés.
connection_type– type de connexion. Les valeurs valides incluents3mysql,postgresqlredshift,sqlserver,oracle,dynamodb, etsnowflake.connection_options– Options de connexion, telles que le chemin et la table de base de données (facultatif). Pour plus d'informations, consultez Types de connexion et options pour l'ETL dans AWS Glue for Spark. Pour unconnection_typedes3, les chemins Amazon S3 sont définis dans un tableau.connection_options = {"paths": [ "s3://amzn-s3-demo-bucket/object_a", "s3://amzn-s3-demo-bucket/object_b"]}Pour les connexions JDBC, plusieurs propriétés doivent être définies. Notez que le nom de base de données doit être inclus dans l'URL. Il peut éventuellement être inclus dans les options de connexion.
Avertissement
Il n'est pas recommandé de stocker des mots de passe dans votre script. Envisagez de les utiliser
boto3pour les extraire AWS Secrets Manager du catalogue de données AWS Glue.connection_options = {"url": "jdbc-url/database", "user": "username", "password":passwordVariable,"dbtable": "table-name", "redshiftTmpDir": "s3-tempdir-path"}Pour une connexion JDBC qui effectue des lectures parallèles, vous pouvez définir l'option hashfield. Par exemple :
connection_options = {"url": "jdbc-url/database", "user": "username", "password":passwordVariable,"dbtable": "table-name", "redshiftTmpDir": "s3-tempdir-path" , "hashfield": "month"}Pour de plus amples informations, veuillez consulter Lecture en parallèle à partir de tables JDBC.
format– spécification de format (facultatif). Utilisée pour une connexion Amazon Simple Storage Service (Amazon S3) ou une connexion AWS Glue qui prend en charge plusieurs formats. Consultez Options de format pour les entrées et sorties dans AWS Glue pour Spark pour connaître les formats pris en charge.format_options– options de format pour le format spécifié. Consultez Options de format pour les entrées et sorties dans AWS Glue pour Spark pour connaître les formats pris en charge.transformation_ctx– Contexte de transformation à utiliser (facultatif).push_down_predicate– filtre les partitions sans avoir à répertorier ni lire tous les fichiers de votre jeu de données. Pour plus d'informations, consultez Pre-Filtering Using Pushdown Predicates.
from_catalog
from_catalog(database, table_name, redshift_tmp_dir="", transformation_ctx="", push_down_predicate="", additional_options={})
Lit un DynamicFrame à l'aide de l'espace de noms et du nom de table du catalogue spécifié.
database– Base de données à partir de laquelle lire.table_name– Nom de la table à partir de laquelle lire.redshift_tmp_dir– répertoire Amazon Redshift temporaire à utiliser (facultatif s'il ne lit pas les données provenant de Redshift).transformation_ctx– Contexte de transformation à utiliser (facultatif).push_down_predicate– filtre les partitions sans avoir à répertorier ni lire tous les fichiers de votre jeu de données. Pour de plus amples informations, veuillez consulter Préfiltrage à l'aide des prédicats pushdown.additional_options— Options supplémentaires fournies à AWS Glue.-
Pour utiliser une connexion JDBC qui effectue des lectures parallèles, vous pouvez définir les options
hashfield,hashexpressionouhashpartitions. Par exemple :additional_options = {"hashfield": "month"}Pour de plus amples informations, veuillez consulter Lecture en parallèle à partir de tables JDBC.
-
Pour passer une expression de catalogue à filtrer en fonction des colonnes d'index, vous pouvez voir l'option
catalogPartitionPredicate.catalogPartitionPredicate– vous pouvez passer une expression de catalogue à filtrer en fonction des colonnes d'index. Cela envoie le filtrage du côté serveur. Pour en savoir plus, consultez AWS Glue Indexes de partition. Notez quepush_down_predicateetcatalogPartitionPredicateutilisent des syntaxes différentes. Le premier utilise la syntaxe standard SQL Spark et le dernier utilise l'analyseur JSQL.Pour de plus amples informations, veuillez consulter Gestion des partitions pour la sortie ETL dans AWS Glue.
-