– méthodes –__init__from_rdd from_options from_catalog

DynamicFrameReader classe

– méthodes –

__init__
from_rdd
from_options
from_catalog

init

`init(glue_context)`

glue_context – GlueContext classe à utiliser.

from_rdd

`from_rdd(data, name, schema=None, sampleRatio=None)`

Lit un DynamicFrame à partir d'un RDD (Resilient Distributed Dataset).

data – Ensemble de données à partir duquel lire.
name – Nom à partir duquel lire.
schema – Schéma à lire (facultatif).
sampleRatio – Exemple de ratio (facultatif).

from_options

`from_options(connection_type, connection_options={}, format=None, format_options={}, transformation_ctx="")`

Lit un DynamicFrame à l'aide de la connexion et du format spécifiés.

connection_type – type de connexion. Les valeurs valides incluent s3mysql, postgresqlredshift,sqlserver,oracle,dynamodb, etsnowflake.
connection_options – Options de connexion, telles que le chemin et la table de base de données (facultatif). Pour plus d'informations, consultez Types de connexion et options pour l'ETL dans AWS Glue for Spark. Pour un connection_type de s3, les chemins Amazon S3 sont définis dans un tableau.
```
connection_options = {"paths": [ "s3://amzn-s3-demo-bucket/object_a", "s3://amzn-s3-demo-bucket/object_b"]}
```
Pour les connexions JDBC, plusieurs propriétés doivent être définies. Notez que le nom de base de données doit être inclus dans l'URL. Il peut éventuellement être inclus dans les options de connexion.

Avertissement
Il n'est pas recommandé de stocker des mots de passe dans votre script. Envisagez de les utiliser boto3 pour les extraire AWS Secrets Manager du catalogue de données AWS Glue.
```
connection_options = {"url": "jdbc-url/database", "user": "username", "password": passwordVariable,"dbtable": "table-name", "redshiftTmpDir": "s3-tempdir-path"} 
```
Pour une connexion JDBC qui effectue des lectures parallèles, vous pouvez définir l'option hashfield. Par exemple :
```
connection_options = {"url": "jdbc-url/database", "user": "username", "password": passwordVariable,"dbtable": "table-name", "redshiftTmpDir": "s3-tempdir-path" , "hashfield": "month"} 
```
Pour de plus amples informations, veuillez consulter Lecture en parallèle à partir de tables JDBC.
format – spécification de format (facultatif). Utilisée pour une connexion Amazon Simple Storage Service (Amazon S3) ou une connexion AWS Glue qui prend en charge plusieurs formats. Consultez Options de format pour les entrées et sorties dans AWS Glue pour Spark pour connaître les formats pris en charge.
format_options – options de format pour le format spécifié. Consultez Options de format pour les entrées et sorties dans AWS Glue pour Spark pour connaître les formats pris en charge.
transformation_ctx – Contexte de transformation à utiliser (facultatif).
push_down_predicate – filtre les partitions sans avoir à répertorier ni lire tous les fichiers de votre jeu de données. Pour plus d'informations, consultez Pre-Filtering Using Pushdown Predicates.

from_catalog

`from_catalog(database, table_name, redshift_tmp_dir="", transformation_ctx="", push_down_predicate="", additional_options={})`

Lit un DynamicFrame à l'aide de l'espace de noms et du nom de table du catalogue spécifié.

database – Base de données à partir de laquelle lire.
table_name – Nom de la table à partir de laquelle lire.
redshift_tmp_dir – répertoire Amazon Redshift temporaire à utiliser (facultatif s'il ne lit pas les données provenant de Redshift).
transformation_ctx – Contexte de transformation à utiliser (facultatif).
push_down_predicate – filtre les partitions sans avoir à répertorier ni lire tous les fichiers de votre jeu de données. Pour de plus amples informations, veuillez consulter Préfiltrage à l'aide des prédicats pushdown.
additional_options — Options supplémentaires fournies à AWS Glue.
- Pour utiliser une connexion JDBC qui effectue des lectures parallèles, vous pouvez définir les options hashfield, hashexpression ou hashpartitions. Par exemple :
```
additional_options = {"hashfield": "month"} 
```
  Pour de plus amples informations, veuillez consulter Lecture en parallèle à partir de tables JDBC.
- Pour passer une expression de catalogue à filtrer en fonction des colonnes d'index, vous pouvez voir l'option catalogPartitionPredicate.
  
  catalogPartitionPredicate – vous pouvez passer une expression de catalogue à filtrer en fonction des colonnes d'index. Cela envoie le filtrage du côté serveur. Pour en savoir plus, consultez AWS Glue Indexes de partition. Notez que push_down_predicate et catalogPartitionPredicate utilisent des syntaxes différentes. Le premier utilise la syntaxe standard SQL Spark et le dernier utilise l'analyseur JSQL.
  
  Pour de plus amples informations, veuillez consulter Gestion des partitions pour la sortie ETL dans AWS Glue.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

DynamicFrameWriter

GlueContext

DynamicFrameReader classe

– méthodes –

__init__

__init__(glue_context)

from_rdd

from_rdd(data, name, schema=None, sampleRatio=None)