可视化作业 API
可视化作业 API 允许您使用表示 AWS Glue 作业的可视化配置的 JSON 对象中 AWS Glue API 的创建数据集成作业。
提供了一系列 CodeGenConfigurationNodes,用于创建或更新任务 API,以在 AWS Glue Studio 中为已创建的任务注册 DAG,并生成关联的代码。
数据类型
CodeGenConfigurationNode 结构
CodeGenConfigurationNode 枚举全部有效的节点类型。可以填充其中一个成员变量,并且只能填充一个。
字段
-
AthenaConnectorSource– 一个 AthenaConnectorSource 对象。指定一个指向 Amazon Athena 数据源的连接器。
-
JDBCConnectorSource– 一个 JDBCConnectorSource 对象。指定一个指向 JDBC 数据源的连接器。
-
SparkConnectorSource– 一个 SparkConnectorSource 对象。指定一个指向 Apache Spark 数据源的连接器。
-
CatalogSource– 一个 CatalogSource 对象。指定 AWS Glue 数据目录中的一个数据存储。
-
RedshiftSource– 一个 RedshiftSource 对象。指定一个 Amazon Redshift 数据存储。
-
S3CatalogSource– 一个 S3CatalogSource 对象。指定 AWS Glue 数据目录中的一个 Amazon S3 数据存储。
-
S3CsvSource– 一个 S3CsvSource 对象。指定一个存储在 Amazon S3 中的命令分隔值 (CSV) 数据存储。
-
S3JsonSource– 一个 S3JsonSource 对象。指定一个存储在 Amazon S3 中的 JSON 数据存储。
-
S3ParquetSource– 一个 S3ParquetSource 对象。指定一个存储在 Amazon S3 中的 Apache Parquet 数据存储。
-
RelationalCatalogSource– 一个 RelationalCatalogSource 对象。指定 AWS Glue Data Catalog 中的一个关系目录数据存储。
-
DynamoDBCatalogSource– 一个 DynamoDBCatalogSource 对象。指定 AWS Glue Data Catalog 中的一个 DynamoDBC 目录数据存储。
-
JDBCConnectorTarget– 一个 JDBCConnectorTarget 对象。指定一个在 Apache Paric 列式存储中写入 Amazon S3 的数据目标。
-
SparkConnectorTarget– 一个 SparkConnectorTarget 对象。指定一个使用 Apache Spark 连接器的目标。
-
CatalogTarget– 一个 BasicCatalogTarget 对象。指定一个使用 AWS Glue 数据目录表的目标。
-
RedshiftTarget– 一个 RedshiftTarget 对象。指定一个使用 Amazon Redshift 的目标。
-
S3CatalogTarget– 一个 S3CatalogTarget 对象。指定一个使用 AWS Glue 数据目录写入 Amazon S3 的数据目标。
-
S3GlueParquetTarget– 一个 S3GlueParquetTarget 对象。指定一个在 Apache Paric 列式存储中写入 Amazon S3 的数据目标。
-
S3DirectTarget– 一个 S3DirectTarget 对象。指定一个写入 Amazon S3 的数据目标。
-
ApplyMapping– 一个 ApplyMapping 对象。指定一个将数据源中的数据属性键映射到数据目标中的数据属性键的转换。您可以重命名键、修改键的数据类型以及选择要从数据集中删除的键。
-
SelectFields– 一个 SelectFields 对象。指定一个选择要保留的数据属性键的转换。
-
DropFields– 一个 DropFields 对象。指定一个选择要删除的数据属性键的转换。
-
RenameField– 一个 RenameField 对象。指定一个重命名单个数据属性键的转换。
-
Spigot– 一个 Spigot 对象。指定一个将数据样本写入 Amazon S3 存储桶的转换。
-
Join– 一个 Join 对象。指定一个转换,它将使用指定数据属性键上的比较短语将两个数据集联接到一个数据集。您可以使用内部、外部、左、右、左半和左反联接。
-
SplitFields– 一个 SplitFields 对象。指定一个将数据属性键拆分为两个
DynamicFrames的转换。输出是DynamicFrames的集合:一个包含选定的数据属性键,另一个包含剩余的数据属性键。 -
SelectFromCollection– 一个 SelectFromCollection 对象。指定一个从
DynamicFrames的集合中选择一个DynamicFrame的转换。输出是选定的DynamicFrame -
FillMissingValues– 一个 FillMissingValues 对象。指定一个转换,它将查找数据集中缺少值的记录,并添加包含通过推算确定的值的新字段。输入数据集用于训练机器学习模型,该模型确定缺失值应该是什么。
-
Filter– 一个 筛选条件 对象。指定一个转换,它将基于筛选条件将一个数据集拆分为两个。
-
CustomCode– 一个 CustomCode 对象。指定一个转换,它将使用您提供的自定义代码执行数据转换。输出是 DynamicFrames 的集合。
-
SparkSQL– 一个 SparkSQL 对象。指定一个转换,您可以在其中使用 Spark SQL 语法输入 SQL 查询以转换数据。输出为单个
DynamicFrame。 -
DirectKinesisSource– 一个 DirectKinesisSource 对象。指定一个直接 Amazon Kinesis 数据源。
-
DirectKafkaSource– 一个 DirectKafkaSource 对象。指定一个 Apache Kafka 数据存储。
-
CatalogKinesisSource– 一个 CatalogKinesisSource 对象。指定 AWS Glue 数据目录中的一个 Kinesis 数据源。
-
CatalogKafkaSource– 一个 CatalogKafkaSource 对象。指定数据目录中的一个 Apache Kafka 数据存储。
-
DropNullFields– 一个 DropNullFields 对象。指定一个转换,如果列中的所有值均为“null”,则该转换将从数据集中删除这些列。预设情况下,AWS Glue Studio 将识别 null 对象,但是某些值,如空字符串、“null”字符串、-1 整数或其他占位符(如零),不会被自动识别为 null。
-
Merge– 一个 Merge 对象。指定一个转换,它将基于指定的主键将
DynamicFrame与暂存DynamicFrame合并以标识记录。不会对重复记录(具有相同主键的记录)去除重复。 -
Union– 一个 Union 对象。指定一个转换,它将两个或更多数据集中的行合并到单个结果中。
-
PIIDetection– 一个 PIIDetection 对象。指定用于识别、删除或掩盖 PII 数据的转换。
-
Aggregate– 一个 聚合 对象。指定一个转换,用于按选定字段对行进行分组并通过指定函数计算聚合值。
-
DropDuplicates– 一个 DropDuplicates 对象。指定一个用于从数据集中删除重复数据行的转换。
-
GovernedCatalogTarget– 一个 GovernedCatalogTarget 对象。指定一个用于写入监管目录的数据目标。
-
GovernedCatalogSource– 一个 GovernedCatalogSource 对象。指定监管数据目录中的一个数据源。
-
MicrosoftSQLServerCatalogSource– 一个 MicrosoftSQLServerCatalogSource 对象。在 AWS Glue 数据目录中指定一个 Microsoft SQL Server 数据源。
-
MySQLCatalogSource– 一个 MySQLCatalogSource 对象。指定 AWS Glue 数据目录中的一个 MySQL 数据源。
-
OracleSQLCatalogSource– 一个 OracleSQLCatalogSource 对象。指定 AWS Glue 数据目录中的一个 Oracle 数据源。
-
PostgreSQLCatalogSource– 一个 PostgreSQLCatalogSource 对象。指定 AWS Glue 数据目录中的一个 PostgresSQL 数据源。
-
MicrosoftSQLServerCatalogTarget– 一个 MicrosoftSQLServerCatalogTarget 对象。指定一个使用 Microsoft SQL 的目标。
-
MySQLCatalogTarget– 一个 MySQLCatalogTarget 对象。指定一个使用 MySQL 的目标。
-
OracleSQLCatalogTarget– 一个 OracleSQLCatalogTarget 对象。指定一个使用 Oracle SQL 的目标。
-
PostgreSQLCatalogTarget– 一个 PostgreSQLCatalogTarget 对象。指定一个使用 Postgres SQL 的目标。
-
Route– 一个 路线 对象。指定一个路由节点,该节点根据定义的筛选条件,将数据定向到不同的输出路径。
-
DynamicTransform– 一个 DynamicTransform 对象。指定由用户创建的自定义视觉转换。
-
EvaluateDataQuality– 一个 EvaluateDataQuality 对象。指定您的数据质量评估标准。
-
S3CatalogHudiSource– 一个 S3CatalogHudiSource 对象。指定在 AWS Glue Data Catalog 中注册的 Hudi 数据来源。数据来源必须存储在 Amazon S3 中。
-
CatalogHudiSource– 一个 CatalogHudiSource 对象。指定在 AWS Glue Data Catalog 中注册的 Hudi 数据来源。
-
S3HudiSource– 一个 S3HudiSource 对象。指定存储在 Amazon S3 中的 Hudi 数据来源。
-
S3HudiCatalogTarget– 一个 S3HudiCatalogTarget 对象。在 AWS Glue Data Catalog 中指定写入 Hudi 数据来源的目标。
-
S3HudiDirectTarget– 一个 S3HudiDirectTarget 对象。指定在 Amazon S3 中写入 Hudi 数据来源的目标。
-
S3CatalogDeltaSource– 一个 S3CatalogDeltaSource 对象。指定在 AWS Glue Data Catalog 中注册的 Delta Lake 数据来源。数据来源必须存储在 Amazon S3 中。
-
CatalogDeltaSource– 一个 CatalogDeltaSource 对象。指定在 AWS Glue Data Catalog 中注册的 Delta Lake 数据来源。
-
S3DeltaSource– 一个 S3DeltaSource 对象。指定存储在 Amazon S3 中的 Delta Lake 数据来源。
-
S3DeltaCatalogTarget– 一个 S3DeltaCatalogTarget 对象。在 AWS Glue Data Catalog 中指定写入 Delta Lake 数据来源的目标。
-
S3DeltaDirectTarget– 一个 S3DeltaDirectTarget 对象。在 Amazon S3 中指定写入 Delta Lake 数据来源的目标。
-
AmazonRedshiftSource– 一个 AmazonRedshiftSource 对象。指定在 Amazon Redshift 中写入数据来源的目标。
-
AmazonRedshiftTarget– 一个 AmazonRedshiftTarget 对象。指定在 Amazon Redshift 中写入数据目标的目标。
-
EvaluateDataQualityMultiFrame– 一个 EvaluateDataQualityMultiFrame 对象。指定您的数据质量评估标准。允许多个输入数据并返回动态帧的集合。
-
Recipe– 一个 配方 对象。指定 AWS Glue DataBrew 脚本节点。
-
SnowflakeSource– 一个 SnowflakeSource 对象。指定 Snowflake 数据来源。
-
SnowflakeTarget– 一个 SnowflakeTarget 对象。指定写入 Snowflake 数据来源的目标。
-
ConnectorDataSource– 一个 ConnectorDataSource 对象。指定使用标准连接选项生成的源。
-
ConnectorDataTarget– 一个 ConnectorDataTarget 对象。指定使用标准连接选项生成的目标。
-
S3CatalogIcebergSource– 一个 s3catalogicebergSourc 对象。指定在 AWS Glue Data Catalog 中注册的 Apache Iceberg 数据来源。Iceberg 数据来源必须存储在 Amazon S3 中。
-
CatalogIcebergSource– 一个 CatalogIcebergSource 对象。指定在 AWS Glue Data Catalog 中注册的 Apache Iceberg 数据来源。
-
S3IcebergCatalogTarget– 一个 S3IcebergCatalogTarget 对象。指定一个 Apache Iceberg 目录目标,该目标将数据写入 Amazon S3 并在 AWS Glue Data Catalog 中注册该表。
-
S3IcebergDirectTarget– 一个 S3IcebergDirectTarget 对象。定义将数据作为 Apache Iceberg 表写入 Amazon S3 的配置参数。
-
S3ExcelSource– 一个 S3ExcelSource 对象。定义从 Amazon S3 读取 Excel 文件的配置参数。
-
S3HyperDirectTarget– 一个 S3HyperDirectTarget 对象。定义使用 HyperDirect 优化将数据写入 Amazon S3 的配置参数。
-
DynamoDBELTConnectorSource– 一个 DynamoDBELTConnectorSource 对象。指定用于从 DynamoDB 表中提取数据的 DynamoDB ELT 连接器源。
JDBCConnectoOptions 结构
用于连接器的其他连接选项。
字段
-
FilterPredicate– UTF-8 字符串,与 Custom string pattern #59 匹配。用于筛选源中的数据的额外条件子句。例如:
BillingCity='Mountain View'使用查询(而不是表名称)时,您应验证查询是否适用于指定的
filterPredicate。 -
PartitionColumn– UTF-8 字符串,与 Custom string pattern #59 匹配。用于分区的整数列的名称。此选项仅在包含
lowerBound、upperBound和numPartitions时有效。此选项的工作方式与 Spark SQL JDBC 阅读器中的工作方式相同。 -
LowerBound– 数字(长型),至多为“无”。用于确定分区步长的最小
partitionColumn值。 -
UpperBound– 数字(长型),至多为“无”。用于确定分区步长的最大
partitionColumn值。 -
NumPartitions– 数字(长型),至多为“无”。分区的数量。此值以及
lowerBound(包含)和upperBound(排除)为用于拆分partitionColumn而生成的WHERE子句表达式构成分区步长。 -
JobBookmarkKeys– UTF-8 字符串数组。要作为排序依据的任务书签键的名称。
-
JobBookmarkKeysSortOrder– UTF-8 字符串,与 Custom string pattern #59 匹配。指定升序或降序排序顺序。
-
DataTypeMapping– 键值对的映射数组。每个键都是一个 UTF-8 字符串(有效值:
ARRAY|BIGINT|BINARY|BIT|BLOB|BOOLEAN|CHAR|CLOB|DATALINK|DATE|DECIMAL|DISTINCT|DOUBLE|FLOAT|INTEGER|JAVA_OBJECT|LONGNVARCHAR|LONGVARBINARY|LONGVARCHAR|NCHAR|NCLOB|NULL|NUMERIC|NVARCHAR|OTHER|REAL|REF|REF_CURSOR|ROWID|SMALLINT|SQLXML|STRUCT|TIME|TIME_WITH_TIMEZONE|TIMESTAMP|TIMESTAMP_WITH_TIMEZONE|TINYINT|VARBINARY|VARCHAR)。每个值都是一个 UTF-8字符串(有效值:
DATE|STRING|TIMESTAMP|INT|FLOAT|LONG|BIGDECIMAL|BYTE|SHORT|DOUBLE)。用于构建从 JDBC 数据类型到 AWS Glue 数据类型的映射的自定义数据类型映射。例如,选项
"dataTypeMapping":{"FLOAT":"STRING"}会通过调用驱动程序的ResultSet.getString()方法,将 JDBC 类型FLOAT的数据字段映射到 JavaString类型,并将其用于构建 AWS Glue 记录。ResultSet对象由每个驱动程序实现,因此行为特定于您使用的驱动程序。请参阅 JDBC 驱动程序的文档,了解驱动程序执行转换的方式。
StreamingDataPreviewOptions 结构
指定与用于查看数据样本的数据预览相关的选项。
字段
-
PollingTime– 数字(长度),至少为 10。轮询时间(以毫秒为单位)。
-
RecordPollingLimit– 数字(长度),至少为 1。已轮询的记录的数量限制。
AthenaConnectorSource 结构
指定一个指向 Amazon Athena 数据源的连接器。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据源的名称。
-
ConnectionName– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。与连接器关联的连接的名称。
-
ConnectorName– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。协助访问 AWS Glue Studio 中的数据存储的连接器的名称。
-
ConnectionType– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。指定指向 Amazon Athena 数据存储的连接的连接类型,如 marketplace.athena 或 custom.athena。
-
ConnectionTable– UTF-8 字符串,与 Custom string pattern #59 匹配。数据源中的表的名称。
-
SchemaName– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中进行读取的 CloudWatch 日志组的名称。例如
/aws-glue/jobs/output。 -
OutputSchemas– GlueSchema 对象的数组。指定自定义 Athena 源的数据架构。
JDBCConnectorSource 结构
指定一个指向 JDBC 数据源的连接器。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据源的名称。
-
ConnectionName– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。与连接器关联的连接的名称。
-
ConnectorName– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。协助访问 AWS Glue Studio 中的数据存储的连接器的名称。
-
ConnectionType– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。指定指向 JDBC 数据存储的连接的连接类型,如 marketplace.jdbc 或 custom.jdbc。
-
AdditionalOptions– 一个 JDBCConnectorOptions 对象。用于连接器的其他连接选项。
-
ConnectionTable– UTF-8 字符串,与 Custom string pattern #59 匹配。数据源中的表的名称。
-
Query– UTF-8 字符串,与 Custom string pattern #60 匹配。从中获取数据的表或 SQL 查询。您可以指定
ConnectionTable或query,但不能同时指定两者。 -
OutputSchemas– GlueSchema 对象的数组。指定自定义 JDBC 源的数据架构。
SparkConnectorSource 结构
指定一个指向 Apache Spark 数据源的连接器。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据源的名称。
-
ConnectionName– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。与连接器关联的连接的名称。
-
ConnectorName– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。协助访问 AWS Glue Studio 中的数据存储的连接器的名称。
-
ConnectionType– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。指定指向 Apache Spark 数据存储的连接的连接类型,如 marketplace.spark 或 custom.spark。
-
AdditionalOptions– 键值对的映射数组。每个键都是一个 UTF-8 字符串,与 Custom string pattern #59 匹配。
每个值都是一个 UTF-8 字符串,与 Custom string pattern #59 匹配。
用于连接器的其他连接选项。
-
OutputSchemas– GlueSchema 对象的数组。指定自定义 Spark 源的数据架构。
CatalogSource 结构
指定 AWS Glue 数据目录中的一个数据存储。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据存储的名称。
-
Database– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中进行读取的数据库的名称。
-
Table– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中进行读取的数据库中的表的名称。
-
PartitionPredicate– UTF-8 字符串,与 Custom string pattern #59 匹配。满足此谓词的分区将被删除。这些分区中保留期内的文件不会被删除。
-
OutputSchemas– GlueSchema 对象的数组。指定目录源的数据架构。
MySQLCatalogSource 结构
指定 AWS Glue 数据目录中的一个 MySQL 数据源。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据源的名称。
-
Database– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中进行读取的数据库的名称。
-
Table– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中进行读取的数据库中的表的名称。
PostgreSQLCatalogSource 结构
指定 AWS Glue 数据目录中的一个 PostgresSQL 数据源。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据源的名称。
-
Database– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中进行读取的数据库的名称。
-
Table– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中进行读取的数据库中的表的名称。
OracleSQLCatalogSource 结构
指定 AWS Glue 数据目录中的一个 Oracle 数据源。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据源的名称。
-
Database– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中进行读取的数据库的名称。
-
Table– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中进行读取的数据库中的表的名称。
MicrosoftSQLServerCatalogSource 结构
在 AWS Glue 数据目录中指定一个 Microsoft SQL Server 数据源。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据源的名称。
-
Database– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中进行读取的数据库的名称。
-
Table– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中进行读取的数据库中的表的名称。
CatalogKinesisSource 结构
指定 AWS Glue 数据目录中的一个 Kinesis 数据源。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据源的名称。
-
WindowSize– 数字(整数),至多为“无”。处理每个微批处理所花费的时间量。
-
DetectSchema– 布尔值。是否从传入的数据中自动确定架构。
-
Table– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中进行读取的数据库中的表的名称。
-
Database– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中进行读取的数据库的名称。
-
StreamingOptions– 一个 KinesisStreamingSourceOptions 对象。用于 Kinesis 串流数据源的其他选项。
-
DataPreviewOptions– 一个 StreamingDataPreviewOptions 对象。用于数据预览的其他选项。
DirectKinesisSource 结构
指定一个直接 Amazon Kinesis 数据源。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据源的名称。
-
WindowSize– 数字(整数),至多为“无”。处理每个微批处理所花费的时间量。
-
DetectSchema– 布尔值。是否从传入的数据中自动确定架构。
-
StreamingOptions– 一个 KinesisStreamingSourceOptions 对象。用于 Kinesis 串流数据源的其他选项。
-
DataPreviewOptions– 一个 StreamingDataPreviewOptions 对象。用于数据预览的其他选项。
KinesisStreamingSourceOptions 结构
用于 Amazon Kinesis 串流数据源的其他选项。
字段
-
EndpointUrl– UTF-8 字符串,与 Custom string pattern #59 匹配。Kinesis 端点的 URL。
-
StreamName– UTF-8 字符串,与 Custom string pattern #59 匹配。Kinesis 数据流的名称。
-
Classification– UTF-8 字符串,与 Custom string pattern #59 匹配。一个可选分类。
-
Delimiter– UTF-8 字符串,与 Custom string pattern #59 匹配。指定分隔符。
-
StartingPosition– UTF-8 字符串(有效值:latest="LATEST"|trim_horizon="TRIM_HORIZON"|earliest="EARLIEST"|timestamp="TIMESTAMP")。要从中读取数据的 Kinesis 数据流中的起始位置。可能的值是
"latest"、"trim_horizon"、"earliest"或以模式yyyy-mm-ddTHH:MM:SSZ采用 UTC 格式的时间戳字符串(其中Z表示带有 +/-的 UTC 时区偏移量。例如:“2023-04-04T08:00:00-04:00”)。默认值为"latest"。注意:仅 AWS Glue 版本 4.0 或更高版本支持使用 UTC 格式的时间戳字符串值来表示“startingPosition”。
-
MaxFetchTimeInMs– 数字(长型),至多为“无”。作业执行程序从 Kinesis 数据流中读取当前批处理记录所花费的最长时间,以毫秒为单位指定。在这段时间内可以进行多次
GetRecordsAPI 调用。默认值为1000。 -
MaxFetchRecordsPerShard– 数字(长型),至多为“无”。每个微批次将从 Kinesis 数据流中的每个分片获取的最大记录数。注意:如果流式传输作业已经从 Kinesis 读取了额外的记录(在同一个 get-records 调用中),则客户端可以超过此限制。如果
MaxFetchRecordsPerShard需要严格,则必须是MaxRecordPerRead的整数倍。默认值为100000。 -
MaxRecordPerRead– 数字(长型),至多为“无”。每项 getRecords 操作中要从 Kinesis 数据流获取的最大记录数。默认值为
10000。 -
AddIdleTimeBetweenReads– 布尔值。在两项连续 getRecords 操作之间添加时间延迟。默认值为
"False"。此选项仅适用于 AWS Glue 版本 2.0 及更高版本。 -
IdleTimeBetweenReadsInMs– 数字(长型),至多为“无”。两项连续 getRecords 操作之间的最短时间延迟,以毫秒为单位指定。默认值为
1000。此选项仅适用于 AWS Glue 版本 2.0 及更高版本。 -
DescribeShardInterval– 数字(长型),至多为“无”。两次 ListShards API 调用之间的最短时间间隔,供您的脚本考虑重新分区。默认值为
1s。 -
NumRetries– 数字(整数),至多为“无”。Kinesis Data Streams API 请求的最大重试次数。默认值为
3。 -
RetryIntervalMs– 数字(长型),至多为“无”。重试 Kinesis Data Streams API 调用之前的冷却时间(以毫秒为单位指定)。默认值为
1000。 -
MaxRetryIntervalMs– 数字(长型),至多为“无”。Kinesis Data Streams API 调用的两次重试之间的最长冷却时间(以毫秒为单位指定)。默认值为
10000。 -
AvoidEmptyBatches– 布尔值。在批处理开始之前检查 Kinesis 数据流中是否有未读数据,避免创建空白微批处理任务。默认值为
"False"。 -
StreamArn– UTF-8 字符串,与 Custom string pattern #59 匹配。Kinesis 数据流的 Amazon Resource Name (ARN)。
-
RoleArn– UTF-8 字符串,与 Custom string pattern #59 匹配。要使用 AWS Security Token Service (AWS STS) 代入的角色的 Amazon Resource Name (ARN)。此角色必须拥有针对 Kinesis 数据流执行描述或读取记录操作的权限。在访问其他账户中的数据流时,必须使用此参数。与
"awsSTSSessionName"结合使用。 -
RoleSessionName– UTF-8 字符串,与 Custom string pattern #59 匹配。使用 AWS STS 代入角色的会话的标识符。在访问其他账户中的数据流时,必须使用此参数。与
"awsSTSRoleARN"结合使用。 -
AddRecordTimestamp– UTF-8 字符串,与 Custom string pattern #59 匹配。当选项设置为 'true' 时,数据输出将包含一个名为 "__src_timestamp" 的附加列,表示数据流收到相应记录的时间。默认值为‘false’。4.0 或更高 AWS Glue 版本支持此选项。
-
EmitConsumerLagMetrics– UTF-8 字符串,与 Custom string pattern #59 匹配。当此选项设置为 'true' 时,对于每个批次,它将向 CloudWatch 发布数据流接收到的最早记录与该记录到达 AWS Glue 之间的时长指标。指标名称为 "glue.driver.streaming.maxConsumerLagInMs"。默认值为‘false’。4.0 或更高 AWS Glue 版本支持此选项。
-
StartingTimestamp– UTF-8 字符串。Kinesis 数据流中开始读取数据的记录的时间戳。可能的值是以模式
yyyy-mm-ddTHH:MM:SSZ采用 UTC 格式的时间戳字符串(其中 表示带有 +/-的 UTC 时区偏移量。例如:“2023-04-04T08:00:00+08:00”)。 -
FanoutConsumerARN– UTF-8 字符串,与 Custom string pattern #59 匹配。Kinesis 数据流增强型扇出式消费者的 Amazon 资源名称(ARN)。指定后即会启用增强型扇出功能,实现专用吞吐量和更低延迟的数据消费能力。
CatalogKafkaSource 结构
指定数据目录中的一个 Apache Kafka 数据存储。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据存储的名称。
-
WindowSize– 数字(整数),至多为“无”。处理每个微批处理所花费的时间量。
-
DetectSchema– 布尔值。是否从传入的数据中自动确定架构。
-
Table– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中进行读取的数据库中的表的名称。
-
Database– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中进行读取的数据库的名称。
-
StreamingOptions– 一个 KafkaStreamingSourceOptions 对象。指定串流选项。
-
DataPreviewOptions– 一个 StreamingDataPreviewOptions 对象。指定与用于查看数据样本的数据预览相关的选项。
DirectKafkaSource 结构
指定一个 Apache Kafka 数据存储。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据存储的名称。
-
StreamingOptions– 一个 KafkaStreamingSourceOptions 对象。指定串流选项。
-
WindowSize– 数字(整数),至多为“无”。处理每个微批处理所花费的时间量。
-
DetectSchema– 布尔值。是否从传入的数据中自动确定架构。
-
DataPreviewOptions– 一个 StreamingDataPreviewOptions 对象。指定与用于查看数据样本的数据预览相关的选项。
KafkaStreamingSourceOptions 结构
用于串流的其他选项。
字段
-
BootstrapServers– UTF-8 字符串,与 Custom string pattern #59 匹配。引导服务器 URL 的列表,例如,作为
b-1.vpc-test-2.o4q88o.c6.kafka.us-east-1.amazonaws.com:9094。此选项必须在 API 调用中指定,或在数据目录的表元数据中定义。 -
SecurityProtocol– UTF-8 字符串,与 Custom string pattern #59 匹配。用于与代理通信的协议。可能的值为
"SSL"或"PLAINTEXT"。 -
ConnectionName– UTF-8 字符串,与 Custom string pattern #59 匹配。连接的名称。
-
TopicName– UTF-8 字符串,与 Custom string pattern #59 匹配。Apache Kafka 中指定的主题名称。您必须指定
"topicName"、"assign"或"subscribePattern"中的至少一个。 -
Assign– UTF-8 字符串,与 Custom string pattern #59 匹配。要使用的特定
TopicPartitions。您必须指定"topicName"、"assign"或"subscribePattern"中的至少一个。 -
SubscribePattern– UTF-8 字符串,与 Custom string pattern #59 匹配。标识要订阅的主题列表的 Java 正则表达式字符串。您必须指定
"topicName"、"assign"或"subscribePattern"中的至少一个。 -
Classification– UTF-8 字符串,与 Custom string pattern #59 匹配。一个可选分类。
-
Delimiter– UTF-8 字符串,与 Custom string pattern #59 匹配。指定分隔符。
-
StartingOffsets– UTF-8 字符串,与 Custom string pattern #59 匹配。Kafka 主题中读取数据的起始位置。可能的值为
"earliest"或"latest"。默认值为"latest"。 -
EndingOffsets– UTF-8 字符串,与 Custom string pattern #59 匹配。批处理查询结束时的终点。可能值为
"latest",或者为每个TopicPartition指定结束偏移的 JSON 字符串。 -
PollTimeoutMs– 数字(长型),至多为“无”。Spark 任务执行程序中,从 Kafka 轮询数据的超时时间(以毫秒为单位)。默认值为
512。 -
NumRetries– 数字(整数),至多为“无”。获取 Kafka 偏移失败前的重试次数。默认值为
3。 -
RetryIntervalMs– 数字(长型),至多为“无”。重试获取 Kafka 偏移前的等待时间(以毫秒为单位)。默认值为
10。 -
MaxOffsetsPerTrigger– 数字(长型),至多为“无”。每个触发间隔处理的最大偏移数的速率限制。指定的总偏移数跨不同卷的
topicPartitions按比例分割。默认值为 null,表示该消费者将读取所有偏移量直至已知的最新偏移量。 -
MinPartitions– 数字(整数),至多为“无”。从 Kafka 读取数据的所需最小分区数。默认值为 null,这意味着 Spark 分区数等于 Kafka 分区数。
-
IncludeHeaders– 布尔值。是否包含 Kafka 标头。当选项设置为“true”时,数据输出将包含一个名为“glue_streaming_kafka_headers”的附加列,类型为
Array[Struct(key: String, value: String)]。默认值为“false”。此选项仅适用于 AWS Glue 版本 3.0 或更高版本。 -
AddRecordTimestamp– UTF-8 字符串,与 Custom string pattern #59 匹配。当选项设置为 'true' 时,数据输出将包含一个名为 "__src_timestamp" 的附加列,表示主题收到相应记录的时间。默认值为‘false’。4.0 或更高 AWS Glue 版本支持此选项。
-
EmitConsumerLagMetrics– UTF-8 字符串,与 Custom string pattern #59 匹配。当此选项设置为 'true' 时,对于每个批次,它将向 CloudWatch 发布主题接收到的最早记录与该记录到达 AWS Glue 之间的时长指标。指标名称为 "glue.driver.streaming.maxConsumerLagInMs"。默认值为‘false’。4.0 或更高 AWS Glue 版本支持此选项。
-
StartingTimestamp– UTF-8 字符串。Kafka 主题中开始读取数据的记录时间戳。可能的值是以模式
yyyy-mm-ddTHH:MM:SSZ采用 UTC 格式的时间戳字符串(其中 表示带有 +/-的 UTC 时区偏移量。例如:“2023-04-04T08:00:00+08:00”)。只能设置一个
StartingTimestamp或StartingOffsets。
RedshiftSource 结构
指定一个 Amazon Redshift 数据存储。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。Amazon Redshift 数据存储的名称。
-
Database– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中进行读取的数据库。
-
Table– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中进行读取的数据库表。
-
RedshiftTmpDir– UTF-8 字符串,与 Custom string pattern #59 匹配。从数据库中复制时,可以用于暂存临时数据的 Amazon S3 路径。
-
TmpDirIAMRole– UTF-8 字符串,与 Custom string pattern #59 匹配。拥有权限的 IAM 角色。
AmazonRedshiftSource 结构
指定 Amazon Redshift 来源。
字段
-
Name– UTF-8 字符串,与 Custom string pattern #61 匹配。Amazon Redshift 来源的名称。
-
Data– 一个 AmazonRedshiftNodeData 对象。指定 Amazon Redshift 源节点的数据。
AmazonRedshiftNodeData 结构
指定一个 Amazon Redshift 节点。
字段
-
AccessType– UTF-8 字符串,与 Custom string pattern #58 匹配。Redshift 连接的访问类型。可以是直接连接或目录连接。
-
SourceType– UTF-8 字符串,与 Custom string pattern #58 匹配。用于指定特定表是源查询还是自定义查询的源类型。
-
Connection– 一个 选项 对象。与 Redshift 集群的 AWS Glue 连接。
-
Schema– 一个 选项 对象。使用直接连接时的 Redshift 架构名称。
-
Table– 一个 选项 对象。使用直接连接时的 Redshift 表名称。
-
CatalogDatabase– 一个 选项 对象。使用数据目录时的 AWS Glue Data Catalog 数据库的名称。
-
CatalogTable– 一个 选项 对象。使用数据目录时的 AWS Glue Data Catalog 表名。
-
CatalogRedshiftSchema– UTF-8 字符串。使用数据目录时的 Redshift 架构名称。
-
CatalogRedshiftTable– UTF-8 字符串。要从中进行读取的数据库表。
-
TempDir– UTF-8 字符串,与 Custom string pattern #59 匹配。从数据库中复制时,可以用于暂存临时数据的 Amazon S3 路径。
-
IamRole– 一个 选项 对象。可选。连接到 S3 时使用的角色名称。留空时,IAM 角色将默认为作业中的角色。
-
AdvancedOptions– AmazonRedshiftAdvancedOption 对象的数组。连接到 Redshift 集群时为可选值。
-
SampleQuery– UTF-8 字符串。当源类型为“查询”时,用于从 Redshift 源中获取数据的 SQL。
-
PreAction– UTF-8 字符串。使用 upsert 运行 MERGE 或 APPEND 之前使用的 SQL。
-
PostAction– UTF-8 字符串。使用 upsert 运行 MERGE 或 APPEND 之前使用的 SQL。
-
Action– UTF-8 字符串。指定写入 Redshift 集群的操作方式。
-
TablePrefix– UTF-8 字符串,与 Custom string pattern #58 匹配。指定表的前缀。
-
Upsert– 布尔值。执行 APPEND 时,在 Redshift 上使用的操作会失效。
-
MergeAction– UTF-8 字符串,与 Custom string pattern #58 匹配。该操作用于确定如何处理 Redshift 接收器中的 MERGE。
-
MergeWhenMatched– UTF-8 字符串,与 Custom string pattern #58 匹配。当现有记录与新记录匹配时,该操作用于确定如何处理 Redshift 接收器中的 MERGE。
-
MergeWhenNotMatched– UTF-8 字符串,与 Custom string pattern #58 匹配。当现有记录与新记录不匹配时,该操作用于确定如何处理 Redshift 接收器中的 MERGE。
-
MergeClause– UTF-8 字符串。自定义合并中用于处理匹配记录的 SQL。
-
CrawlerConnection– UTF-8 字符串。指定与所用目录表关联的连接的名称。
-
TableSchema– 选项 对象的数组。给定节点的架构输出数组。
-
StagingTable– UTF-8 字符串。使用 upsert 执行 MERGE 或 APPEND 时使用的临时暂存表的名称。
-
SelectedColumns– 选项 对象的数组。使用 upsert 执行 MERGE 或 APPEND 时用于确定匹配记录的列名列表。
AmazonRedshiftAdvancedOption 结构
连接到 Redshift 集群时指定可选值。
字段
-
Key– UTF-8 字符串。其他连接选项的键。
-
Value– UTF-8 字符串。其他连接选项的值。
选项结构
指定选项值。
字段
-
Value– UTF-8 字符串,与 Custom string pattern #59 匹配。指定选项的值。
-
Label– UTF-8 字符串,与 Custom string pattern #59 匹配。指定选项的标签。
-
Description– UTF-8 字符串,与 Custom string pattern #59 匹配。指定选项的描述。
S3CatalogSource 结构
指定 AWS Glue 数据目录中的一个 Amazon S3 数据存储。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据存储的名称。
-
Database– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中进行读取的数据库。
-
Table– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中进行读取的数据库表。
-
PartitionPredicate– UTF-8 字符串,与 Custom string pattern #59 匹配。满足此谓词的分区将被删除。这些分区中保留期内的文件不会被删除。设置为
""– 默认情况下为空。 -
AdditionalOptions– 一个 S3SourceAdditionalOptions 对象。指定其他连接选项。
S3SourceAdditionalOptions 结构
为 Amazon S3 数据存储指定其他连接选项。
字段
-
BoundedSize– 数字(长型)。设置要处理的数据集的目标大小的上限(以字节为单位)。
-
BoundedFiles– 数字(长型)。设置要处理的文件的目标数量的上限。
S3CsvSource 结构
指定一个存储在 Amazon S3 中的命令分隔值 (CSV) 数据存储。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据存储的名称。
-
Paths– 必填:UTF-8 字符串数组。要从中进行读取的 Amazon S3 路径的列表。
-
CompressionType– UTF-8 字符串(有效值:gzip="GZIP"|bzip2="BZIP2")。指定数据压缩方式。通常,如果数据有标准文件扩展名,则不需要指定。可能的值为
"gzip"和"bzip"。 -
Exclusions– UTF-8 字符串数组。包含要排除的 Unix 样式 glob 模式的 JSON 列表的字符串。例如,"[\"**.pdf\"]" 排除所有 PDF 文件。
-
GroupSize– UTF-8 字符串,与 Custom string pattern #59 匹配。目标组大小(以字节为单位)。默认值根据输入数据大小和群集大小进行计算。当少于 50,000 个输入文件时,
"groupFiles"必须设置为"inPartition",此选项才能生效。 -
GroupFiles– UTF-8 字符串,与 Custom string pattern #59 匹配。当输入包含超过 50,000 个文件时,预设情况下将启用文件分组。当少于 50,000 个文件时,要启用分组,请将此参数设置为“inPartition”。当超过 50,000 个文件时,若要禁用分组,请将此参数设置为
"none"。 -
Recurse– 布尔值。如果设置为 true(真),则以递归方式读取指定路径下的所有子目录中的文件。
-
MaxBand– 数字(整数),至多为“无”。此选项控制 s3 列表可能保持一致的持续时间(以毫秒为单位)。当使用 JobBookmarks 来表明 Amazon S3 最终一致性时,将专门跟踪修改时间戳处于最后 maxBand 毫秒内的文件。大多数用户不需要设置此选项。默认值为 900000 毫秒或 15 分钟。
-
MaxFilesInBand– 数字(整数),至多为“无”。此选项指定在最后 maxBand 秒内可保存的最大文件数量。如果超过此值,额外的文件将会跳过,且只能在下一次作业运行中处理。
-
AdditionalOptions– 一个 S3DirectSourceAdditionalOptions 对象。指定其他连接选项。
-
Separator– 必填:UTF-8 字符串(有效值:comma="COMMA"|ctrla="CTRLA"|pipe="PIPE"|semicolon="SEMICOLON"|tab="TAB")。指定分隔符。默认值为逗号:“,”,但也可以指定任何其他字符。
-
Escaper– UTF-8 字符串,与 Custom string pattern #59 匹配。指定要用于转义的字符。此选项仅在读取 CSV 文件时使用。默认值为
none。如果启用,则按原样使用紧跟其后的字符,一小组已知的转义符(\n、\r、\t和\0)除外。 -
QuoteChar– 必填:UTF-8 字符串(有效值:quote="QUOTE"|quillemet="QUILLEMET"|single_quote="SINGLE_QUOTE"|disabled="DISABLED")。指定要用于引用的字符。默认值为双引号:
'"'。将这设置为-1可完全关闭引用。 -
Multiline– 布尔值。指定单个记录能否跨越多行的布尔值。当字段包含带引号的换行符时,会出现此选项。如果有任何记录跨越多行,则您必须将此选项设置为 True(真)。默认值为
False,它允许在分析过程中更积极地拆分文件。 -
WithHeader– 布尔值。指定是否将第一行视为标题的布尔值。默认值为
False。 -
WriteHeader– 布尔值。指定是否将标题写入输出的布尔值。默认值为
True。 -
SkipFirst– 布尔值。指定是否跳过第一个数据行的布尔值。默认值为
False。 -
OptimizePerformance– 布尔值。指定是否使用高级 SIMD CSV 读取器以及基于 Apache Arrow 的列式内存格式的布尔值。(仅在 AWS Glue 版本 3.0 中提供。)
-
OutputSchemas– GlueSchema 对象的数组。指定 S3 CSV 源的数据架构。
DirectJDBCSource 结构
指定直接 JDBC 数据源连接。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。JDBC 数据源连接的名称。
-
Database– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。JDBC 数据源连接的数据库。
-
Table– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。JDBC 数据源连接的表。
-
ConnectionName– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。JDBC 数据源的连接名称。
-
ConnectionType– 必填:UTF-8 字符串(有效值:sqlserver|mysql|oracle|postgresql|redshift)。JDBC 源的连接类型。
-
RedshiftTmpDir– UTF-8 字符串,与 Custom string pattern #59 匹配。JDBC Redshift 数据源的临时目录。
-
OutputSchemas– GlueSchema 对象的数组。指定直接 JDBC 源的数据架构。
S3DirectSourceAdditionalOptions 结构
为 Amazon S3 数据存储指定其他连接选项。
字段
-
BoundedSize– 数字(长型)。设置要处理的数据集的目标大小的上限(以字节为单位)。
-
BoundedFiles– 数字(长型)。设置要处理的文件的目标数量的上限。
-
EnableSamplePath– 布尔值。设置选项以启用示例路径。
-
SamplePath– UTF-8 字符串,与 Custom string pattern #59 匹配。如果启用,请指定示例路径。
S3JsonSource 结构
指定一个存储在 Amazon S3 中的 JSON 数据存储。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据存储的名称。
-
Paths– 必填:UTF-8 字符串数组。要从中进行读取的 Amazon S3 路径的列表。
-
CompressionType– UTF-8 字符串(有效值:gzip="GZIP"|bzip2="BZIP2")。指定数据压缩方式。通常,如果数据有标准文件扩展名,则不需要指定。可能的值为
"gzip"和"bzip"。 -
Exclusions– UTF-8 字符串数组。包含要排除的 Unix 样式 glob 模式的 JSON 列表的字符串。例如,"[\"**.pdf\"]" 排除所有 PDF 文件。
-
GroupSize– UTF-8 字符串,与 Custom string pattern #59 匹配。目标组大小(以字节为单位)。默认值根据输入数据大小和群集大小进行计算。当少于 50,000 个输入文件时,
"groupFiles"必须设置为"inPartition",此选项才能生效。 -
GroupFiles– UTF-8 字符串,与 Custom string pattern #59 匹配。当输入包含超过 50,000 个文件时,预设情况下将启用文件分组。当少于 50,000 个文件时,要启用分组,请将此参数设置为“inPartition”。当超过 50,000 个文件时,若要禁用分组,请将此参数设置为
"none"。 -
Recurse– 布尔值。如果设置为 true(真),则以递归方式读取指定路径下的所有子目录中的文件。
-
MaxBand– 数字(整数),至多为“无”。此选项控制 s3 列表可能保持一致的持续时间(以毫秒为单位)。当使用 JobBookmarks 来表明 Amazon S3 最终一致性时,将专门跟踪修改时间戳处于最后 maxBand 毫秒内的文件。大多数用户不需要设置此选项。默认值为 900000 毫秒或 15 分钟。
-
MaxFilesInBand– 数字(整数),至多为“无”。此选项指定在最后 maxBand 秒内可保存的最大文件数量。如果超过此值,额外的文件将会跳过,且只能在下一次作业运行中处理。
-
AdditionalOptions– 一个 S3DirectSourceAdditionalOptions 对象。指定其他连接选项。
-
JsonPath– UTF-8 字符串,与 Custom string pattern #59 匹配。定义 JSON 数据的 JsonPath 字符串。
-
Multiline– 布尔值。指定单个记录能否跨越多行的布尔值。当字段包含带引号的换行符时,会出现此选项。如果有任何记录跨越多行,则您必须将此选项设置为 True(真)。默认值为
False,它允许在分析过程中更积极地拆分文件。 -
OutputSchemas– GlueSchema 对象的数组。指定 S3 JSON 源的数据架构。
S3ParquetSource 结构
指定一个存储在 Amazon S3 中的 Apache Parquet 数据存储。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据存储的名称。
-
Paths– 必填:UTF-8 字符串数组。要从中进行读取的 Amazon S3 路径的列表。
-
CompressionType– UTF-8 字符串(有效值:snappy="SNAPPY"|lzo="LZO"|gzip="GZIP"|brotli="BROTLI"|lz4="LZ4"|uncompressed="UNCOMPRESSED"|none="NONE")。指定数据压缩方式。通常,如果数据有标准文件扩展名,则不需要指定。可能的值为
"gzip"和"bzip"。 -
Exclusions– UTF-8 字符串数组。包含要排除的 Unix 样式 glob 模式的 JSON 列表的字符串。例如,"[\"**.pdf\"]" 排除所有 PDF 文件。
-
GroupSize– UTF-8 字符串,与 Custom string pattern #59 匹配。目标组大小(以字节为单位)。默认值根据输入数据大小和群集大小进行计算。当少于 50,000 个输入文件时,
"groupFiles"必须设置为"inPartition",此选项才能生效。 -
GroupFiles– UTF-8 字符串,与 Custom string pattern #59 匹配。当输入包含超过 50,000 个文件时,预设情况下将启用文件分组。当少于 50,000 个文件时,要启用分组,请将此参数设置为“inPartition”。当超过 50,000 个文件时,若要禁用分组,请将此参数设置为
"none"。 -
Recurse– 布尔值。如果设置为 true(真),则以递归方式读取指定路径下的所有子目录中的文件。
-
MaxBand– 数字(整数),至多为“无”。此选项控制 s3 列表可能保持一致的持续时间(以毫秒为单位)。当使用 JobBookmarks 来表明 Amazon S3 最终一致性时,将专门跟踪修改时间戳处于最后 maxBand 毫秒内的文件。大多数用户不需要设置此选项。默认值为 900000 毫秒或 15 分钟。
-
MaxFilesInBand– 数字(整数),至多为“无”。此选项指定在最后 maxBand 秒内可保存的最大文件数量。如果超过此值,额外的文件将会跳过,且只能在下一次作业运行中处理。
-
AdditionalOptions– 一个 S3DirectSourceAdditionalOptions 对象。指定其他连接选项。
-
OutputSchemas– GlueSchema 对象的数组。指定 S3 Parquet 源的数据架构。
S3DeltaSource 结构
指定存储在 Amazon S3 中的 Delta Lake 数据来源。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。Delta Lake 源的名称。
-
Paths– 必填:UTF-8 字符串数组。要从中进行读取的 Amazon S3 路径的列表。
-
AdditionalDeltaOptions– 键值对的映射数组。每个键都是一个 UTF-8 字符串,与 Custom string pattern #59 匹配。
每个值都是一个 UTF-8 字符串,与 Custom string pattern #59 匹配。
指定其他连接选项。
-
AdditionalOptions– 一个 S3DirectSourceAdditionalOptions 对象。为连接器指定其他选项。
-
OutputSchemas– GlueSchema 对象的数组。指定 Delta Lake 源的数据架构。
S3CatalogDeltaSource 结构
指定在 AWS Glue Data Catalog 中注册的 Delta Lake 数据来源。数据来源必须存储在 Amazon S3 中。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。Delta Lake 数据源的名称。
-
Database– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中进行读取的数据库的名称。
-
Table– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中进行读取的数据库中的表的名称。
-
AdditionalDeltaOptions– 键值对的映射数组。每个键都是一个 UTF-8 字符串,与 Custom string pattern #59 匹配。
每个值都是一个 UTF-8 字符串,与 Custom string pattern #59 匹配。
指定其他连接选项。
-
OutputSchemas– GlueSchema 对象的数组。指定 Delta Lake 源的数据架构。
CatalogDeltaSource 结构
指定在 AWS Glue Data Catalog 中注册的 Delta Lake 数据来源。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。Delta Lake 数据源的名称。
-
Database– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中进行读取的数据库的名称。
-
Table– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中进行读取的数据库中的表的名称。
-
AdditionalDeltaOptions– 键值对的映射数组。每个键都是一个 UTF-8 字符串,与 Custom string pattern #59 匹配。
每个值都是一个 UTF-8 字符串,与 Custom string pattern #59 匹配。
指定其他连接选项。
-
OutputSchemas– GlueSchema 对象的数组。指定 Delta Lake 源的数据架构。
S3HudiSource 结构
指定存储在 Amazon S3 中的 Hudi 数据来源。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。Hudi 源的名称。
-
Paths– 必填:UTF-8 字符串数组。要从中进行读取的 Amazon S3 路径的列表。
-
AdditionalHudiOptions– 键值对的映射数组。每个键都是一个 UTF-8 字符串,与 Custom string pattern #59 匹配。
每个值都是一个 UTF-8 字符串,与 Custom string pattern #59 匹配。
指定其他连接选项。
-
AdditionalOptions– 一个 S3DirectSourceAdditionalOptions 对象。为连接器指定其他选项。
-
OutputSchemas– GlueSchema 对象的数组。指定 Hudi 源的数据架构。
S3CatalogHudiSource 结构
指定在 AWS Glue Data Catalog 中注册的 Hudi 数据来源。Hudi 数据来源必须存储在 Amazon S3 中。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据来源的名称。
-
Database– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中进行读取的数据库的名称。
-
Table– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中进行读取的数据库中的表的名称。
-
AdditionalHudiOptions– 键值对的映射数组。每个键都是一个 UTF-8 字符串,与 Custom string pattern #59 匹配。
每个值都是一个 UTF-8 字符串,与 Custom string pattern #59 匹配。
指定其他连接选项。
-
OutputSchemas– GlueSchema 对象的数组。指定 Hudi 源的数据架构。
S3ExcelSource 结构
指定 S3 Excel 数据来源。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。S3 Excel 数据来源的名称。
-
Paths– 必填:UTF-8 字符串数组。Excel 文件所在的 S3 路径。
-
CompressionType– UTF-8 字符串(有效值:snappy="SNAPPY"|lzo="LZO"|gzip="GZIP"|brotli="BROTLI"|lz4="LZ4"|uncompressed="UNCOMPRESSED"|none="NONE")。Excel 文件使用的压缩格式。
-
Exclusions– UTF-8 字符串数组。从处理中排除特定文件或路径的模式。
-
GroupSize– UTF-8 字符串,与 Custom string pattern #59 匹配。定义批处理的文件组的大小。
-
GroupFiles– UTF-8 字符串,与 Custom string pattern #59 匹配。指定如何对文件进行分组处理。
-
Recurse– 布尔值。指示是否递归处理子目录。
-
MaxBand– 数字(整数),至多为“无”。要使用的最大处理带数。
-
MaxFilesInBand– 数字(整数),至多为“无”。每个带中要处理的最大文件数。
-
AdditionalOptions– 一个 S3DirectSourceAdditionalOptions 对象。S3 直接源处理的附加配置选项。
-
NumberRows– 数字(长型)。每个 Excel 文件要处理的行数。
-
SkipFooter– 数字(整数),至多为“无”。每个 Excel 文件末尾要跳过的行数。
-
OutputSchemas– GlueSchema 对象的数组。要应用于已处理数据的 AWS Glue 架构。
CatalogHudiSource 结构
指定在 AWS Glue Data Catalog 中注册的 Hudi 数据来源。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据来源的名称。
-
Database– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中进行读取的数据库的名称。
-
Table– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中进行读取的数据库中的表的名称。
-
AdditionalHudiOptions– 键值对的映射数组。每个键都是一个 UTF-8 字符串,与 Custom string pattern #59 匹配。
每个值都是一个 UTF-8 字符串,与 Custom string pattern #59 匹配。
指定其他连接选项。
-
OutputSchemas– GlueSchema 对象的数组。指定 Hudi 源的数据架构。
DynamoDBCatalogSource 结构
指定 AWS Glue 数据目录中的一个 DynamoDB 数据源。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据源的名称。
-
Database– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中进行读取的数据库的名称。
-
Table– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中进行读取的数据库中的表的名称。
-
PitrEnabled– 布尔值。指定是否为 DynamoDB 表启用时间点故障恢复(PITR)。设置为
true时,允许从特定时间点读取。默认值为false。 -
AdditionalOptions– 一个 DDBELTCatalogAdditionalOptions 对象。指定 DynamoDB 数据来源的其他连接选项。
RelationalCatalogSource 结构
指定 AWS Glue 数据目录中的一个关系数据库数据源。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据源的名称。
-
Database– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中进行读取的数据库的名称。
-
Table– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中进行读取的数据库中的表的名称。
JDBCConnectorTarget 结构
指定一个在 Apache Paric 列式存储中写入 Amazon S3 的数据目标。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据目标的名称。
-
Inputs– 必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。作为数据目标输入的节点。
-
ConnectionName– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。与连接器关联的连接的名称。
-
ConnectionTable– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。数据目标中表的名称。
-
ConnectorName– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。将使用的连接器的名称。
-
ConnectionType– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。指定指向 JDBC 数据目标的连接的连接类型,如 marketplace.jdbc 或 custom.jdbc。
-
AdditionalOptions– 键值对的映射数组。每个键都是一个 UTF-8 字符串,与 Custom string pattern #59 匹配。
每个值都是一个 UTF-8 字符串,与 Custom string pattern #59 匹配。
用于连接器的其他连接选项。
-
OutputSchemas– GlueSchema 对象的数组。指定 JDBC 目标的数据架构。
SparkConnectorTarget 结构
指定一个使用 Apache Spark 连接器的目标。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据目标的名称。
-
Inputs– 必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。作为数据目标输入的节点。
-
ConnectionName– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。Apache Spark 连接器的连接名称。
-
ConnectorName– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。Apache Spark 连接器的名称。
-
ConnectionType– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。指定指向 Apache Spark 数据存储的连接的连接类型,如 marketplace.spark 或 custom.spark。
-
AdditionalOptions– 键值对的映射数组。每个键都是一个 UTF-8 字符串,与 Custom string pattern #59 匹配。
每个值都是一个 UTF-8 字符串,与 Custom string pattern #59 匹配。
用于连接器的其他连接选项。
-
OutputSchemas– GlueSchema 对象的数组。指定自定义 Spark 目标的数据架构。
BasicCatalogTarget 结构
指定一个使用 AWS Glue 数据目录表的目标。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据目标的名称。
-
Inputs– 必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。作为数据目标输入的节点。
-
PartitionKeys– UTF-8 字符串数组。用于根据特定密钥或一组密钥在多个分区或分片之间分配数据的分区键。
-
Database– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。包含您要用作目标的表的数据库。此数据库必须已存在于数据目录中。
-
Table– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。定义输出数据架构的表。此表必须已存在于数据目录中。
MySQLCatalogTarget 结构
指定一个使用 MySQL 的目标。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据目标的名称。
-
Inputs– 必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。作为数据目标输入的节点。
-
Database– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要向其写入的数据库的名称。
-
Table– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要写入的数据库中的表的名称。
PostgreSQLCatalogTarget 结构
指定一个使用 Postgres SQL 的目标。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据目标的名称。
-
Inputs– 必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。作为数据目标输入的节点。
-
Database– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要向其写入的数据库的名称。
-
Table– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要写入的数据库中的表的名称。
OracleSQLCatalogTarget 结构
指定一个使用 Oracle SQL 的目标。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据目标的名称。
-
Inputs– 必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。作为数据目标输入的节点。
-
Database– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要向其写入的数据库的名称。
-
Table– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要写入的数据库中的表的名称。
MicrosoftSQLServerCatalogTarget 结构
指定一个使用 Microsoft SQL 的目标。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据目标的名称。
-
Inputs– 必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。作为数据目标输入的节点。
-
Database– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要向其写入的数据库的名称。
-
Table– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要写入的数据库中的表的名称。
RedshiftTarget 结构
指定一个使用 Amazon Redshift 的目标。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据目标的名称。
-
Inputs– 必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。作为数据目标输入的节点。
-
Database– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要向其写入的数据库的名称。
-
Table– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要写入的数据库中的表的名称。
-
RedshiftTmpDir– UTF-8 字符串,与 Custom string pattern #59 匹配。从数据库中复制时,可以用于暂存临时数据的 Amazon S3 路径。
-
TmpDirIAMRole– UTF-8 字符串,与 Custom string pattern #59 匹配。拥有权限的 IAM 角色。
-
UpsertRedshiftOptions– 一个 UpsertRedshiftTargetOptions 对象。写入 Redshift 目标时用于配置 upsert 操作的一组选项。
AmazonRedshiftTarget 结构
指定一个 Amazon Redshift 目标。
字段
-
Name– UTF-8 字符串,与 Custom string pattern #61 匹配。Amazon Redshift 目标的名称。
-
Data– 一个 AmazonRedshiftNodeData 对象。指定 Amazon Redshift 目标节点的数据。
-
Inputs– UTF-8 字符串数组,不少于 1 个字符串,不超过 1 个字符串。作为数据目标输入的节点。
UpsertRedshiftTargetOptions 结构
写入 Redshift 目标时用于配置 upsert 操作的选项。
字段
-
TableLocation– UTF-8 字符串,与 Custom string pattern #59 匹配。Redshift 表的物理位置。
-
ConnectionName– UTF-8 字符串,与 Custom string pattern #59 匹配。用于写入 Redshift 的连接的名称。
-
UpsertKeys– UTF-8 字符串数组。用于确定是执行更新还是插入的键。
S3CatalogTarget 结构
指定一个使用 AWS Glue 数据目录写入 Amazon S3 的数据目标。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据目标的名称。
-
Inputs– 必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。作为数据目标输入的节点。
-
PartitionKeys– UTF-8 字符串数组。使用一系列键指定本机分区。
-
Table– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要写入的数据库中的表的名称。
-
Database– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要向其写入的数据库的名称。
-
SchemaChangePolicy– 一个 CatalogSchemaChangePolicy 对象。一项指定爬网程序的更新行为的策略。
-
AutoDataQuality– 一个 AutoDataQuality 对象。指定是否为 S3 目录目标自动启用数据质量评估。设置为
true时,则在写入操作期间自动执行数据质量检查。
S3GlueParquetTarget 结构
指定一个在 Apache Paric 列式存储中写入 Amazon S3 的数据目标。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据目标的名称。
-
Inputs– 必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。作为数据目标输入的节点。
-
PartitionKeys– UTF-8 字符串数组。使用一系列键指定本机分区。
-
Path– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要写入的单个 Amazon S3 路径。
-
Compression– UTF-8 字符串(有效值:snappy="SNAPPY"|lzo="LZO"|gzip="GZIP"|brotli="BROTLI"|lz4="LZ4"|uncompressed="UNCOMPRESSED"|none="NONE")。指定数据压缩方式。通常,如果数据有标准文件扩展名,则不需要指定。可能的值为
"gzip"和"bzip"。 -
NumberTargetPartitions– UTF-8 字符串。指定使用 AWS Glue 写入 Amazon S3 时 Parquet 文件的目标分区数。
-
SchemaChangePolicy– 一个 DirectSchemaChangePolicy 对象。一项指定爬网程序的更新行为的策略。
-
AutoDataQuality– 一个 AutoDataQuality 对象。指定是否为 S3 AWS Glue Parquet 目标自动启用数据质量评估。设置为
true时,则在写入操作期间自动执行数据质量检查。
CatalogSchemaChangePolicy 结构
一项指定爬网程序的更新行为的策略。
字段
-
EnableUpdateCatalog– 布尔值。当爬网程序发现已更改的架构时,是否使用指定的更新行为。
-
UpdateBehavior– UTF-8 字符串(有效值:UPDATE_IN_DATABASE|LOG)。爬网程序发现已更改的架构时的更新行为。
S3DirectTarget 结构
指定一个写入 Amazon S3 的数据目标。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据目标的名称。
-
Inputs– 必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。作为数据目标输入的节点。
-
PartitionKeys– UTF-8 字符串数组。使用一系列键指定本机分区。
-
Path– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要写入的单个 Amazon S3 路径。
-
Compression– UTF-8 字符串,与 Custom string pattern #59 匹配。指定数据压缩方式。通常,如果数据有标准文件扩展名,则不需要指定。可能的值为
"gzip"和"bzip"。 -
NumberTargetPartitions– UTF-8 字符串。指定将数据直接写入 Amazon S3 时的目标分区数。
-
Format– 必填:UTF-8 字符串(有效值:json="JSON"|csv="CSV"|avro="AVRO"|orc="ORC"|parquet="PARQUET"|hudi="HUDI"|delta="DELTA"|iceberg="ICEBERG"|hyper="HYPER"|xml="XML")。指定目标的数据输出格式。
-
SchemaChangePolicy– 一个 DirectSchemaChangePolicy 对象。一项指定爬网程序的更新行为的策略。
-
AutoDataQuality– 一个 AutoDataQuality 对象。指定是否为 S3 直接目标自动启用数据质量评估。设置为
true时,则在写入操作期间自动执行数据质量检查。 -
OutputSchemas– GlueSchema 对象的数组。指定 S3 直接目标的数据架构。
S3HudiCatalogTarget 结构
在 AWS Glue Data Catalog 中指定写入 Hudi 数据来源的目标。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据目标的名称。
-
Inputs– 必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。作为数据目标输入的节点。
-
PartitionKeys– UTF-8 字符串数组。使用一系列键指定本机分区。
-
Table– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要写入的数据库中的表的名称。
-
Database– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要向其写入的数据库的名称。
-
AdditionalOptions– 必填:键值对的映射数组。每个键都是一个 UTF-8 字符串,与 Custom string pattern #59 匹配。
每个值都是一个 UTF-8 字符串,与 Custom string pattern #59 匹配。
指定用于连接器的其他连接选项。
-
SchemaChangePolicy– 一个 CatalogSchemaChangePolicy 对象。一项指定爬网程序的更新行为的策略。
-
AutoDataQuality– 一个 AutoDataQuality 对象。指定是否为 S3 Hudi 目录目标自动启用数据质量评估。设置为
true时,则在写入操作期间自动执行数据质量检查。 -
OutputSchemas– GlueSchema 对象的数组。指定 S3 Hudi 目录目标的数据架构。
S3HudiDirectTarget 结构
指定在 Amazon S3 中写入 Hudi 数据来源的目标。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据目标的名称。
-
Inputs– 必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。作为数据目标输入的节点。
-
Path– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要写入的 Hudi 数据来源的Amazon S3 路径。
-
Compression– 必填:UTF-8 字符串(有效值:gzip="GZIP"|lzo="LZO"|uncompressed="UNCOMPRESSED"|snappy="SNAPPY")。指定数据压缩方式。通常,如果数据有标准文件扩展名,则不需要指定。可能的值为
"gzip"和"bzip"。 -
NumberTargetPartitions– UTF-8 字符串。指定在 Amazon S3 上分发 Hudi 数据集文件的目标分区数。
-
PartitionKeys– UTF-8 字符串数组。使用一系列键指定本机分区。
-
Format– 必填:UTF-8 字符串(有效值:json="JSON"|csv="CSV"|avro="AVRO"|orc="ORC"|parquet="PARQUET"|hudi="HUDI"|delta="DELTA"|iceberg="ICEBERG"|hyper="HYPER"|xml="XML")。指定目标的数据输出格式。
-
AdditionalOptions– 必填:键值对的映射数组。每个键都是一个 UTF-8 字符串,与 Custom string pattern #59 匹配。
每个值都是一个 UTF-8 字符串,与 Custom string pattern #59 匹配。
指定用于连接器的其他连接选项。
-
SchemaChangePolicy– 一个 DirectSchemaChangePolicy 对象。一项指定爬网程序的更新行为的策略。
-
AutoDataQuality– 一个 AutoDataQuality 对象。指定是否为 S3 Hudi 直接目标自动启用数据质量评估。设置为
true时,则在写入操作期间自动执行数据质量检查。
S3DeltaCatalogTarget 结构
在 AWS Glue Data Catalog 中指定写入 Delta Lake 数据来源的目标。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据目标的名称。
-
Inputs– 必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。作为数据目标输入的节点。
-
PartitionKeys– UTF-8 字符串数组。使用一系列键指定本机分区。
-
Table– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要写入的数据库中的表的名称。
-
Database– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要向其写入的数据库的名称。
-
AdditionalOptions– 键值对的映射数组。每个键都是一个 UTF-8 字符串,与 Custom string pattern #59 匹配。
每个值都是一个 UTF-8 字符串,与 Custom string pattern #59 匹配。
指定用于连接器的其他连接选项。
-
SchemaChangePolicy– 一个 CatalogSchemaChangePolicy 对象。一项指定爬网程序的更新行为的策略。
-
AutoDataQuality– 一个 AutoDataQuality 对象。指定是否为 S3 Delta 目录目标自动启用数据质量评估。设置为
true时,则在写入操作期间自动执行数据质量检查。 -
OutputSchemas– GlueSchema 对象的数组。指定 S3 Delta 目录目标的数据架构。
S3DeltaDirectTarget 结构
在 Amazon S3 中指定写入 Delta Lake 数据来源的目标。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据目标的名称。
-
Inputs– 必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。作为数据目标输入的节点。
-
PartitionKeys– UTF-8 字符串数组。使用一系列键指定本机分区。
-
Path– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要写入的 Delta Lake 数据来源的 Amazon S3 路径。
-
Compression– 必填:UTF-8 字符串(有效值:uncompressed="UNCOMPRESSED"|snappy="SNAPPY")。指定数据压缩方式。通常,如果数据有标准文件扩展名,则不需要指定。可能的值为
"gzip"和"bzip"。 -
NumberTargetPartitions– UTF-8 字符串。指定在 Amazon S3 上分发 Delta Lake 数据集文件的目标分区数。
-
Format– 必填:UTF-8 字符串(有效值:json="JSON"|csv="CSV"|avro="AVRO"|orc="ORC"|parquet="PARQUET"|hudi="HUDI"|delta="DELTA"|iceberg="ICEBERG"|hyper="HYPER"|xml="XML")。指定目标的数据输出格式。
-
AdditionalOptions– 键值对的映射数组。每个键都是一个 UTF-8 字符串,与 Custom string pattern #59 匹配。
每个值都是一个 UTF-8 字符串,与 Custom string pattern #59 匹配。
指定用于连接器的其他连接选项。
-
SchemaChangePolicy– 一个 DirectSchemaChangePolicy 对象。一项指定爬网程序的更新行为的策略。
-
AutoDataQuality– 一个 AutoDataQuality 对象。指定是否为 S3 Delta 直接目标自动启用数据质量评估。设置为
true时,则在写入操作期间自动执行数据质量检查。
S3HyperDirectTarget 结构
指定写入 Amazon S3 的 HyperDirect 数据目标。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。HyperDirect 目标节点的唯一标识符。
-
Inputs– 必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。指定 HyperDirect 目标的输入源。
-
Format- UTF-8 字符串(有效值:json="JSON"|csv="CSV"|avro="AVRO"|orc="ORC"|parquet="PARQUET"|hudi="HUDI"|delta="DELTA"|iceberg="ICEBERG"|hyper="HYPER"|xml="XML")。指定 HyperDirect 目标的数据输出格式。
-
PartitionKeys– UTF-8 字符串数组。定义输出数据的分区策略。
-
Path– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。将写入输出数据的 S3 位置。
-
Compression– UTF-8 字符串(有效值:uncompressed="UNCOMPRESSED")。应用于输出数据的压缩类型。
-
SchemaChangePolicy– 一个 DirectSchemaChangePolicy 对象。定义在写入操作期间如何处理架构更改。
-
AutoDataQuality– 一个 AutoDataQuality 对象。指定是否为 S3 Hyper 直接目标自动启用数据质量评估。设置为
true时,则在写入操作期间自动执行数据质量检查。 -
OutputSchemas– GlueSchema 对象的数组。指定 S3 Hyper 直接目标的数据架构。
S3IcebergDirectTarget 结构
指定写入 Amazon S3 中的 Iceberg 数据来源的目标。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。指定数据管道中的 Iceberg 目标节点的唯一标识符。
-
Inputs– 必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。定义为此 Iceberg 目标提供数据的单一输入源。
-
PartitionKeys– UTF-8 字符串数组。指定用于对 S3 中的 Iceberg 表数据进行分区的列。
-
Path– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。定义将存储 Iceberg 表数据的 S3 位置。
-
Format– 必填:UTF-8 字符串(有效值:json="JSON"|csv="CSV"|avro="AVRO"|orc="ORC"|parquet="PARQUET"|hudi="HUDI"|delta="DELTA"|iceberg="ICEBERG"|hyper="HYPER"|xml="XML")。指定用于存储 Iceberg 表数据的文件格式(例如,Parquet、ORC)。
-
AdditionalOptions– 键值对的映射数组。每个键都是一个 UTF-8 字符串,与 Custom string pattern #59 匹配。
每个值都是一个 UTF-8 字符串,与 Custom string pattern #59 匹配。
提供用于自定义 Iceberg 表行为的附加配置选项。
-
SchemaChangePolicy– 一个 DirectSchemaChangePolicy 对象。定义将数据写入 Iceberg 表时如何处理架构更改。
-
Compression– 必填:UTF-8 字符串(有效值:gzip="GZIP"|lzo="LZO"|uncompressed="UNCOMPRESSED"|snappy="SNAPPY")。指定 S3 中 Iceberg 表文件使用的压缩编解码器。
-
NumberTargetPartitions– UTF-8 字符串。设置在 S3 上分发 Iceberg 表文件的目标分区数。
-
OutputSchemas– GlueSchema 对象的数组。指定 S3 Iceberg 直接目标的数据架构。
DirectSchemaChangePolicy 结构
一项指定爬网程序的更新行为的策略。
字段
-
EnableUpdateCatalog– 布尔值。当爬网程序发现已更改的架构时,是否使用指定的更新行为。
-
UpdateBehavior– UTF-8 字符串(有效值:UPDATE_IN_DATABASE|LOG)。爬网程序发现已更改的架构时的更新行为。
-
Table– UTF-8 字符串,与 Custom string pattern #59 匹配。指定应用架构更改策略的数据库中的表。
-
Database– UTF-8 字符串,与 Custom string pattern #59 匹配。指定应用架构更改策略的数据库。
ApplyMapping 结构
指定一个将数据源中的数据属性键映射到数据目标中的数据属性键的转换。您可以重命名键、修改键的数据类型以及选择要从数据集中删除的键。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。转换节点的名称。
-
Inputs– 必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。通过其节点名称标识的数据输入。
-
Mapping– 必填:Mapping 对象的数组。指定数据源中的数据属性键与数据目标中的数据属性键的映射。
Mapping 结构
指定数据属性键的映射。
字段
-
ToKey– UTF-8 字符串,与 Custom string pattern #59 匹配。应用映射之后,列的名称应该是什么。可与
FromPath相同。 -
FromPath– UTF-8 字符串数组。要修改的表或列。
-
FromType– UTF-8 字符串,与 Custom string pattern #59 匹配。要修改的数据的类型。
-
ToType– UTF-8 字符串,与 Custom string pattern #59 匹配。要修改的数据的数据类型。
-
Dropped– 布尔值。如果为 true(真),则删除列。
-
Children– Mapping 对象的数组。仅适用于嵌套数据结构。如果要更改父结构,但也要更改其子结构之一,则可填写此数据结构。它也是
Mapping,但其FromPath将是父结构的FromPath再加上来自此结构的FromPath。对于子部分,假设您拥有结构:
{ "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }您可以指定一个类似如下的
Mapping:{ "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }
SelectFields 结构
指定一个选择要保留的数据属性键的转换。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。转换节点的名称。
-
Inputs– 必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。通过其节点名称标识的数据输入。
-
Paths– 必填:UTF-8 字符串数组。指向数据结构中变量的 JSON 路径。
DropFields 结构
指定一个选择要删除的数据属性键的转换。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。转换节点的名称。
-
Inputs– 必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。通过其节点名称标识的数据输入。
-
Paths– 必填:UTF-8 字符串数组。指向数据结构中变量的 JSON 路径。
RenameField 结构
指定一个重命名单个数据属性键的转换。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。转换节点的名称。
-
Inputs– 必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。通过其节点名称标识的数据输入。
-
SourcePath– 必填:UTF-8 字符串数组。指向源数据的数据结构中变量的 JSON 路径。
-
TargetPath– 必填:UTF-8 字符串数组。指向目标数据的数据结构中变量的 JSON 路径。
Spigot 结构
指定一个将数据样本写入 Amazon S3 存储桶的转换。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。转换节点的名称。
-
Inputs– 必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。通过其节点名称标识的数据输入。
-
Path– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。Amazon S3 中的一个路径,在该路径中,转换会将数据集中的记录子集写入 Amazon S3 存储桶中的 JSON 文件。
-
Topk– 数字(整型),不超过 100。指定从数据集开头开始写入的一些记录。
-
Prob– 数字(双精度),不超过 1。选择任何给定记录的概率(最大值为 1 的十进制值)。值 1 表示从数据集中读取的每一行都应包括在示例输出中。
Join 结构
指定一个转换,它将使用指定数据属性键上的比较短语将两个数据集联接到一个数据集。您可以使用内部、外部、左、右、左半和左反联接。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。转换节点的名称。
-
Inputs– 必填:UTF-8 字符串数组,不少于 2 个或不超过 2 个字符串。通过其节点名称标识的数据输入。
-
JoinType– 必填:UTF-8 字符串(有效值:equijoin="EQUIJOIN"|left="LEFT"|right="RIGHT"|outer="OUTER"|leftsemi="LEFT_SEMI"|leftanti="LEFT_ANTI")。指定要针对数据集执行的联接的类型。
-
Columns– 必填:JoinColumn 对象的数组,不少于 2 个或不超过 2 个结构。要联接的两列的列表。
JoinColumn 结构
指定一个要联接的列。
字段
-
From– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要联接的列。
-
Keys– 必填:UTF-8 字符串数组。要联接的列的键。
SplitFields 结构
指定一个将数据属性键拆分为两个 DynamicFrames 的转换。输出是 DynamicFrames 的集合:一个包含选定的数据属性键,另一个包含剩余的数据属性键。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。转换节点的名称。
-
Inputs– 必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。通过其节点名称标识的数据输入。
-
Paths– 必填:UTF-8 字符串数组。指向数据结构中变量的 JSON 路径。
SelectFromCollection 结构
指定一个从 DynamicFrames 的集合中选择一个 DynamicFrame 的转换。输出是选定的 DynamicFrame
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。转换节点的名称。
-
Inputs– 必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。通过其节点名称标识的数据输入。
-
Index– 必填:数字(整数),至多为“无”。要选择的 DynamicFrame 的索引。
FillMissingValues 结构
指定一个转换,它将查找数据集中缺少值的记录,并添加包含通过推算确定的值的新字段。输入数据集用于训练机器学习模型,该模型确定缺失值应该是什么。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。转换节点的名称。
-
Inputs– 必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。通过其节点名称标识的数据输入。
-
ImputedPath– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。指向推算的数据集的数据结构中变量的 JSON 路径。
-
FilledPath– UTF-8 字符串,与 Custom string pattern #59 匹配。指向被填充的数据集的数据结构中变量的 JSON 路径。
Filter 结构
指定一个转换,它将基于筛选条件将一个数据集拆分为两个。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。转换节点的名称。
-
Inputs– 必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。通过其节点名称标识的数据输入。
-
LogicalOperator– 必填:UTF-8 字符串(有效值:AND|OR)。用于通过将键值与指定值进行比较来筛选行的运算符。
-
Filters– 必填:FilterExpression 对象的数组。指定一个筛选条件表达式。
FilterExpression 结构
指定一个筛选条件表达式。
字段
-
Operation– 必填:UTF-8 字符串(有效值:EQ|LT|GT|LTE|GTE|REGEX|ISNULL)。要在该表达式中执行的操作的类型。
-
Negated– 布尔值。是否要否定该表达式。
-
Values– 必填:FilterValue 对象的数组。筛选条件值的列表。
FilterValue 结构
表示 FilterExpression 的值的列表中的单个条目。
字段
-
Type– 必填:UTF-8 字符串(有效值:COLUMNEXTRACTED|CONSTANT)。筛选条件值的类型。
-
Value– 必填:UTF-8 字符串数组。要关联的值。
CustomCode 结构
指定一个转换,它将使用您提供的自定义代码执行数据转换。输出是 DynamicFrames 的集合。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。转换节点的名称。
-
Inputs– 必填:UTF-8 字符串数组,至少 1 个字符串。通过其节点名称标识的数据输入。
-
Code– 必填: UTF-8 字符串,与 Custom string pattern #52 匹配。用于执行数据转换的自定义代码。
-
ClassName– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。为自定义代码节点类定义的名称。
-
OutputSchemas– GlueSchema 对象的数组。指定自定义代码转换的数据架构。
SparkSQL 结构
指定一个转换,您可以在其中使用 Spark SQL 语法输入 SQL 查询以转换数据。输出为单个 DynamicFrame。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。转换节点的名称。
-
Inputs– 必填:UTF-8 字符串数组,至少 1 个字符串。通过其节点名称标识的数据输入。您可以将表名称与要在 SQL 查询中使用的每个输入节点关联起来。您选择的名称必须满足 Spark SQL 命名限制。
-
SqlQuery– 必填: UTF-8 字符串,与 Custom string pattern #60 匹配。必须使用 Spark SQL 语法并返回单个数据集的 SQL 查询。
-
SqlAliases– 必填:SQLAlias 对象的数组。别名列表。别名允许您指定在 SQL 中为给定输入使用什么名称。例如,您拥有一个名为“MyDataSource”的数据源。如果您指定
From作为 MyDataSource,以及Alias作为 SqlName,则您在 SQL 中可以执行以下操作:select * from SqlName而这将从 MyDataSource 获取数据。
-
OutputSchemas– GlueSchema 对象的数组。指定 SparkSQL 转换的数据架构。
SqlAlias 结构
表示 SqlAliases 的值的列表中的单个条目。
字段
-
From– 必填: UTF-8 字符串,与 Custom string pattern #58 匹配。表,或表中的列。
-
Alias– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。为表或表中的列提供的临时名称。
DropNullFields 结构
指定一个转换,如果列中的所有值均为“null”,则该转换将从数据集中删除这些列。预设情况下,AWS Glue Studio 将识别 null 对象,但是某些值,如空字符串、“null”字符串、-1 整数或其他占位符(如零),不会被自动识别为 null。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。转换节点的名称。
-
Inputs– 必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。通过其节点名称标识的数据输入。
-
NullCheckBoxList– 一个 NullCheckBoxList 对象。一种结构,它表示是否将某些值识别为要删除的 null 值。
-
NullTextList– NullValueField 对象的数组,不超过 50 个结构。一种结构,它指定 NullValueField 结构的列表,这些结构表示自定义 null 值,如零值或其他值,用作数据集唯一的 null 占位符。
仅当 null 占位符的值和数据类型与数据匹配时,
DropNullFields转换才会删除自定义 null 值。
NullCheckBoxList 结构
表示某些值是否被识别为要删除的 null 值。
字段
-
IsEmpty– 布尔值。指定将一个空字符串视为 null 值。
-
IsNullString– 布尔值。指定将一个拼写“null”一词的值视为 null 值。
-
IsNegOne– 布尔值。指定将一个为 -1 的整数值视为 null 值。
NullValueField 结构
表示自定义 null 值,如零值或其他值,用作数据集唯一的 null 占位符。
字段
-
Value– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。null 占位符的值。
-
Datatype– 必填:一个 DataType 对象。值的数据类型。
Datatype 结构
表示值的数据类型的结构。
字段
-
Id– 必填: UTF-8 字符串,与 Custom string pattern #58 匹配。值的数据类型。
-
Label– 必填: UTF-8 字符串,与 Custom string pattern #58 匹配。分配给 datatype(数据类型)的标签。
Merge 结构
指定一个转换,它将基于指定的主键将 DynamicFrame 与暂存 DynamicFrame 合并以标识记录。不会对重复记录(具有相同主键的记录)去除重复。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。转换节点的名称。
-
Inputs– 必填:UTF-8 字符串数组,不少于 2 个或不超过 2 个字符串。通过其节点名称标识的数据输入。
-
Source– 必填: UTF-8 字符串,与 Custom string pattern #58 匹配。将与暂存
DynamicFrame合并的源DynamicFrame。 -
PrimaryKeys– 必填:UTF-8 字符串数组。要匹配源和暂存动态帧中的记录的主键字段列表。
Union 结构
指定一个转换,它将两个或更多数据集中的行合并到单个结果中。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。转换节点的名称。
-
Inputs– 必填:UTF-8 字符串数组,不少于 2 个或不超过 2 个字符串。节点 ID 输入到转换。
-
UnionType– 必填:UTF-8 字符串(有效值:ALL|DISTINCT)。指示 Union 转换的类型。
指定
ALL将数据源中的所有行联接到生成的 DynamicFrame。生成的并集不会删除重复行。指定
DISTINCT删除生成的 DynamicFrame 中的重复行。
PIIDetection 结构
指定用于识别、删除或掩盖 PII 数据的转换。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。转换节点的名称。
-
Inputs– 必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。节点 ID 输入到转换。
-
PiiType– 必填:UTF-8 字符串(有效值:RowAudit|RowHashing|RowMasking|RowPartialMasking|ColumnAudit|ColumnHashing|ColumnMasking)。指示 PIIDetection 转换的类型。
-
EntityTypesToDetect– 必填:UTF-8 字符串数组。指示 PIIDetection 转换将标识为 PII 数据的实体类型。
PII 类型的实体包括:PERSON_NAME、DATE、USA_SNN、EMAIL、USA_ITIN、USA_PASSPORT_NUMBER、PHONE_NUMBER、BANK_ACCOUNT、IP_ADDRESS、MAC_ADDRESS、USA_CPT_CODE、USA_HCPCS_CODE、USA_NATIONAL_DRUG_CODE、USA_MEDICARE_BENEFICIARY_IDENTIFIER、USA_HEALTH_INSURANCE_CLAIM_NUMBER、CREDIT_CARD、USA_NATIONAL_PROVIDER_IDENTIFIER、USA_DEA_NUMBER、USA_DRIVING_LICENSE
-
OutputColumnName– UTF-8 字符串,与 Custom string pattern #59 匹配。指示包含该行中检测到的任何实体类型的输出列名称。
-
SampleFraction– 数字(双精度),不超过 1。指示要在扫描 PII 实体时采样的数据的部分。
-
ThresholdFraction– 数字(双精度),不超过 1。指示要将列标识为 PII 数据所必须满足的数据部分。
-
MaskValue– UTF-8 字符串,长度不超过 256 个字节,与 Custom string pattern #56 匹配。指示将替代检测到的实体的值。
-
RedactText– UTF-8 字符串,与 Custom string pattern #59 匹配。指定是否对检测到的 PII 文本进行脱敏处理。设置为
true时,PII 内容将替换为脱敏字符。 -
RedactChar– UTF-8 字符串,与 Custom string pattern #59 匹配。启用脱敏时用于替换检测到的 PII 内容的字符。默认的脱敏字符为
*。 -
MatchPattern– UTF-8 字符串,与 Custom string pattern #59 匹配。用于识别标准检测算法之外其他 PII 内容的正则表达式模式。
-
NumLeftCharsToExclude– 数字(整数),至多为“无”。在检测到的 PII 内容左侧保留不被脱敏的字符数。设置允许保留敏感数据周围的上下文信息。
-
NumRightCharsToExclude– 数字(整数),至多为“无”。在检测到的 PII 内容右侧保留不被脱敏的字符数。设置允许保留敏感数据周围的上下文信息。
-
DetectionParameters– UTF-8 字符串,与 Custom string pattern #59 匹配。用于配置 PII 检测行为及敏感度设置的附加参数。
-
DetectionSensitivity– UTF-8 字符串,与 Custom string pattern #59 匹配。PII 检测行为的敏感度级别。敏感度级别越高,可检测到的潜在 PII 内容就越多,但导致的误报可能也更多。
Aggregate 结构
指定一个转换,用于按选定字段对行进行分组并通过指定函数计算聚合值。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。转换节点的名称。
-
Inputs– 必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。指定要用作聚合转换输入的字段和行。
-
Groups– 必填:UTF-8 字符串数组。指定要对其进行分组的字段。
-
Aggs:必填:聚合操作 对象的数组,不少于 1 个或不超过 30 个结构。指定要对指定字段执行的聚合函数。
DropDuplicates 结构
指定一个用于从数据集中删除重复数据行的转换。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。转换节点的名称。
-
Inputs– 必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。通过其节点名称标识的数据输入。
-
Columns– UTF-8 字符串数组。重复时需要合并或删除的列的名称。
GovernedCatalogTarget 结构
指定一个使用 AWS Glue 数据目录写入 Amazon S3 的数据目标。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据目标的名称。
-
Inputs– 必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。作为数据目标输入的节点。
-
PartitionKeys– UTF-8 字符串数组。使用一系列键指定本机分区。
-
Table– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要写入的数据库中的表的名称。
-
Database– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要向其写入的数据库的名称。
-
SchemaChangePolicy– 一个 CatalogSchemaChangePolicy 对象。用于指定监管目录的更新行为的策略。
GovernedCatalogSource 结构
指定监管 AWS Glue 数据目录中的一个数据存储。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据存储的名称。
-
Database– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中进行读取的数据库。
-
Table– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中进行读取的数据库表。
-
PartitionPredicate– UTF-8 字符串,与 Custom string pattern #59 匹配。满足此谓词的分区将被删除。这些分区中保留期内的文件不会被删除。设置为
""– 默认情况下为空。 -
AdditionalOptions– 一个 S3SourceAdditionalOptions 对象。指定其他连接选项。
聚合操作结构
指定在聚合转换中执行聚合所需的一组参数。
字段
-
Column– 必填:UTF-8 字符串数组。指定数据集上将应用聚合函数的列。
-
AggFunc:必填:UTF-8 字符串(有效值:avg|countDistinct|count|first|last|kurtosis|max|min|skewness|stddev_samp|stddev_pop|sum|sumDistinct|var_samp|var_pop)。指定要应用的聚合函数。
可能的聚合函数包括:avg countDinstinct、count、first、last、kurtosis、max、min、skewness、stddev_samp、stddev_pop、sum、sumDistinct、var_samp、var_pop
GlueSchema 结构
在无法确定架构时,指定一个用户定义的架构 AWS Glue。
字段
-
Columns– GlueStudioSchemaColumn 对象的数组。指定组成 AWS Glue 架构的列定义。
GlueStudioSchemaColumn 结构
指定 AWS Glue 架构定义中的单个列。
字段
-
Name– 必填:UTF-8 字符串,长度不超过 1024 个字节,与 Single-line string pattern 匹配。AWS Glue Studio 架构中的列名称。
-
Type– UTF-8 字符串,不超过 131072 个字节,与 Single-line string pattern 匹配。AWS Glue Studio 架构中此列的 Hive 类型。
-
GlueStudioType– UTF-8 字符串,不超过 131072 个字节,与 Single-line string pattern 匹配。AWS Glue Studio 中定义的列的数据类型。
GlueStudioColumn 结构
指定 AWS Glue Studio 中的单个列。
字段
-
Key– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。AWS Glue Studio 中的列的键。
-
FullPath– 必填:UTF-8 字符串数组。AWS Glue Studio 中的列的完整 URL。
-
Type– 必填: UTF-8 字符串(有效值:array="ARRAY"|bigint="BIGINT"|bigint array="BIGINT_ARRAY"|binary="BINARY"|binary array="BINARY_ARRAY"|boolean="BOOLEAN"|boolean array="BOOLEAN_ARRAY"|byte="BYTE"|byte array="BYTE_ARRAY"|char="CHAR"|char array="CHAR_ARRAY"|choice="CHOICE"|choice array="CHOICE_ARRAY"|date="DATE"|date array="DATE_ARRAY"|decimal="DECIMAL"|decimal array="DECIMAL_ARRAY"|double="DOUBLE"|double array="DOUBLE_ARRAY"|enum="ENUM"|enum array="ENUM_ARRAY"|float="FLOAT"|float array="FLOAT_ARRAY"|int="INT"|int array="INT_ARRAY"|interval="INTERVAL"|interval array="INTERVAL_ARRAY"|long="LONG"|long array="LONG_ARRAY"|object="OBJECT"|short="SHORT"|short array="SHORT_ARRAY"|smallint="SMALLINT"|smallint array="SMALLINT_ARRAY"|string="STRING"|string array="STRING_ARRAY"|timestamp="TIMESTAMP"|timestamp array="TIMESTAMP_ARRAY"|tinyint="TINYINT"|tinyint array="TINYINT_ARRAY"|varchar="VARCHAR"|varchar array="VARCHAR_ARRAY"|null="NULL"|unknown="UNKNOWN"|unknown array="UNKNOWN_ARRAY")。AWS Glue Studio 中的列的类型。
-
Children– 结构数组。AWS Glue Studio 中的父列的子项。
-
GlueStudioType– UTF-8 字符串(有效值:array="ARRAY"|bigint="BIGINT"|bigint array="BIGINT_ARRAY"|binary="BINARY"|binary array="BINARY_ARRAY"|boolean="BOOLEAN"|boolean array="BOOLEAN_ARRAY"|byte="BYTE"|byte array="BYTE_ARRAY"|char="CHAR"|char array="CHAR_ARRAY"|choice="CHOICE"|choice array="CHOICE_ARRAY"|date="DATE"|date array="DATE_ARRAY"|decimal="DECIMAL"|decimal array="DECIMAL_ARRAY"|double="DOUBLE"|double array="DOUBLE_ARRAY"|enum="ENUM"|enum array="ENUM_ARRAY"|float="FLOAT"|float array="FLOAT_ARRAY"|int="INT"|int array="INT_ARRAY"|interval="INTERVAL"|interval array="INTERVAL_ARRAY"|long="LONG"|long array="LONG_ARRAY"|object="OBJECT"|short="SHORT"|short array="SHORT_ARRAY"|smallint="SMALLINT"|smallint array="SMALLINT_ARRAY"|string="STRING"|string array="STRING_ARRAY"|timestamp="TIMESTAMP"|timestamp array="TIMESTAMP_ARRAY"|tinyint="TINYINT"|tinyint array="TINYINT_ARRAY"|varchar="VARCHAR"|varchar array="VARCHAR_ARRAY"|null="NULL"|unknown="UNKNOWN"|unknown array="UNKNOWN_ARRAY")。AWS Glue Studio 中定义的列的数据类型。
DynamicTransform 结构
指定执行动态转换所需的一组参数。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。指定动态转换的名称。
-
TransformName– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。指定动态转换在 AWS Glue Studio 可视化编辑器中显示的名称。
-
Inputs– 必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。指定所需的动态转换输入。
-
Parameters– TransformConfigParameter 对象的数组。指定动态转换的参数。
-
FunctionName– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。指定动态转换的函数名称。
-
Path– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。指定动态转换源和配置文件的路径。
-
Version– UTF-8 字符串,与 Custom string pattern #59 匹配。此字段未使用,将在未来版本中弃用。
-
OutputSchemas– GlueSchema 对象的数组。指定动态转换的数据架构。
TransformConfigParameter 结构
指定动态转换的配置文件的参数。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。指定动态转换的配置文件的参数名称。
-
Type– 必填:UTF-8 字符串(有效值:str="STR"|int="INT"|float="FLOAT"|complex="COMPLEX"|bool="BOOL"|list="LIST"|null="NULL")。指定动态转换的配置文件中的参数类型。
-
ValidationRule– UTF-8 字符串,与 Custom string pattern #59 匹配。指定动态转换的配置文件的验证规则。
-
ValidationMessage– UTF-8 字符串,与 Custom string pattern #59 匹配。指定动态转换的配置文件的验证消息。
-
Value– UTF-8 字符串数组。指定动态转换的配置文件的参数值。
-
ListType– UTF-8 字符串(有效值:str="STR"|int="INT"|float="FLOAT"|complex="COMPLEX"|bool="BOOL"|list="LIST"|null="NULL")。指定动态转换的配置文件的参数列表类型。
-
IsOptional– 布尔值。指定该参数在动态转换的配置文件中是否可选。
EvaluateDataQuality 结构
指定您的数据质量评估标准。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据质量评估的名称。
-
Inputs– 必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。您的数据质量评估的输入。
-
Ruleset– 必填:UTF-8 字符串,长度不少于 1 个字节,不超过 65536 个字节,与 Custom string pattern #57 匹配。数据质量评估的规则集。
-
Output– UTF-8 字符串(有效值:PrimaryInput|EvaluationResults)。您的数据质量评估的输出。
-
PublishingOptions– 一个 DQResultsPublishingOptions 对象。用于配置结果发布方式的选项。
-
StopJobOnFailureOptions– 一个 DQStopJobOnFailureOptions 对象。用于配置在数据质量评估失败时如何停止作业的选项。
DQResultsPublishingOptions 结构
用于配置数据质量评估结果发布方式的选项。
字段
-
EvaluationContext– UTF-8 字符串,与 Custom string pattern #58 匹配。评估的背景。
-
ResultsS3Prefix– UTF-8 字符串,与 Custom string pattern #59 匹配。Amazon S3 前缀位于结果之前。
-
CloudWatchMetricsEnabled– 布尔值。为您的数据质量结果启用指标。
-
ResultsPublishingEnabled– 布尔值。为您的数据质量结果启用发布。
DQStopJobOnFailureOptions 结构
用于配置在数据质量评估失败时如何停止作业的选项。
字段
-
StopJobOnFailureTiming– UTF-8 字符串(有效值:Immediate|AfterDataLoad)。如果您的数据质量评估失败,何时停止作业。选项包括 Immediate(立即)或 AfterDataLoad(数据加载后)。
EvaluateDataQualityMultiFrame 结构
指定您的数据质量评估标准。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。数据质量评估的名称。
-
Inputs– 必填:UTF-8 字符串数组,至少 1 个字符串。您的数据质量评估的输入。此列表中的第一个输入是主数据来源。
-
AdditionalDataSources– 键值对的映射数组。每个键都是一个 UTF-8 字符串,与 Custom string pattern #61 匹配。
每个值都是一个 UTF-8 字符串,与 Custom string pattern #59 匹配。
除主数据来源之外的所有数据来源的别名。
-
Ruleset– 必填:UTF-8 字符串,长度不少于 1 个字节,不超过 65536 个字节,与 Custom string pattern #57 匹配。数据质量评估的规则集。
-
PublishingOptions– 一个 DQResultsPublishingOptions 对象。用于配置结果发布方式的选项。
-
AdditionalOptions– 键值对的映射数组。每个键都是一个 UTF-8 字符串(有效值:
performanceTuning.caching="CacheOption"|observations.scope="ObservationsOption"|compositeRuleEvaluation.method="CompositeOption")。每个值是一个 UTF-8 字符串。
用于配置转换运行时行为的选项。
-
StopJobOnFailureOptions– 一个 DQStopJobOnFailureOptions 对象。用于配置在数据质量评估失败时如何停止作业的选项。
脚本结构
在 AWS Glue 作业中使用 AWS Glue DataBrew 脚本的 AWS Glue Studio 节点。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。AWS Glue Studio 节点的名称。
-
Inputs– 必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。作为脚本节点的输入的节点,由 id 标识。
-
RecipeReference– 一个 RecipeReference 对象。对节点使用的 DataBrew 脚本的引用。
-
RecipeSteps– RecipeStep 对象的数组。配方节点中使用的转换步骤。
RecipeReference 结构
对 AWS Glue DataBrew 脚本的引用。
字段
-
RecipeArn– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。DataBrew 脚本的 ARN。
-
RecipeVersion– 必填: UTF-8 字符串,长度不少于 1 个字节,不超过 16 个字节。DataBrew 脚本的脚本版本。
SnowflakeNodeData 结构
指定 AWS Glue Studio 中 Snowflake 节点的配置。
字段
-
SourceType– UTF-8 字符串,与 Custom string pattern #58 匹配。指定检索数据的指定方式。有效值:
"table"、"query"。 -
Connection– 一个 选项 对象。指定与 Snowflake 端点的 AWS Glue Data Catalog 连接。
-
Schema– UTF-8 字符串。为您的节点指定要使用的 Snowflake 数据库架构。
-
Table– UTF-8 字符串。为您的节点指定要使用的 Snowflake 表。
-
Database– UTF-8 字符串。为您的节点指定要使用的 Snowflake 数据库。
-
TempDir– UTF-8 字符串,与 Custom string pattern #59 匹配。当前未使用。
-
IamRole– 一个 选项 对象。当前未使用。
-
AdditionalOptions– 键值对的映射数组。每个键都是一个 UTF-8 字符串,与 Custom string pattern #59 匹配。
每个值都是一个 UTF-8 字符串,与 Custom string pattern #59 匹配。
指定传递给 Snowflake 连接器的其他选项。如果在此节点中以其他地方指定了选项,则优先使用该选项。
-
SampleQuery– UTF-8 字符串。用于检索
query源类型数据的 SQL 字符串。 -
PreAction– UTF-8 字符串。在 Snowflake 连接器执行其标准操作之前运行的 SQL 字符串。
-
PostAction– UTF-8 字符串。在 Snowflake 连接器执行其标准操作之后运行的 SQL 字符串。
-
Action– UTF-8 字符串。指定在写入包含先前存在数据的表时要执行的操作。有效值:
append、merge、truncate、drop。 -
Upsert– 布尔值。在“操作”为
append时使用。指定行已存在时的解析行为。如果为 true,则先前存在的行将被更新。如果为 false,则将插入这些行。 -
MergeAction– UTF-8 字符串,与 Custom string pattern #58 匹配。指定合并操作。有效值:
simple、custom。如果是简单,则合并行为由MergeWhenMatched和MergeWhenNotMatched定义。如果是自定义,则MergeClause由定义。 -
MergeWhenMatched– UTF-8 字符串,与 Custom string pattern #58 匹配。指定在合并时如何解析与先前存在的数据相匹配的记录。有效值:
update、delete。 -
MergeWhenNotMatched– UTF-8 字符串,与 Custom string pattern #58 匹配。指定在合并时如何处理与先前存在的数据不匹配的记录。有效值:
insert、none。 -
MergeClause– UTF-8 字符串。指定自定义合并行为的 SQL 语句。
-
StagingTable– UTF-8 字符串。执行
merge或更新插入append操作时使用的暂存表的名称。数据被写入此表,然后通过生成的后期操作将其移动到table。 -
SelectedColumns– 选项 对象的数组。指定在检测到合并和更新插入的匹配项时用于标识记录的组合列。带有
value、label和description键的结构列表。每个结构都描述了一列。 -
AutoPushdown– 布尔值。指定是否启用自动查询下推。如果启用了下推,那么当在 Spark 上运行查询时,如果可以将部分查询“下推”到 Snowflake 服务器,则会将其下推。这提高了某些查询的性能。
-
TableSchema– 选项 对象的数组。手动定义节点的目标架构。带有
value、label和description键的结构列表。每个结构都定义了一列。
SnowflakeSource 结构
指定 Snowflake 数据来源。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。Snowflake 数据来源的名称。
-
Data– 必填:一个 SnowflakeNodeData 对象。Snowflake 数据来源的配置。
-
OutputSchemas– GlueSchema 对象的数组。为输出数据指定用户定义的架构。
SnowflakeTarget 结构
指定 Snowflake 目标。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。Snowflake 目标的名称。
-
Data– 必填:一个 SnowflakeNodeData 对象。指定 Snowflake 目标节点的数据。
-
Inputs– UTF-8 字符串数组,不少于 1 个字符串,不超过 1 个字符串。作为数据目标输入的节点。
ConnectorDataSource 的结构
指定使用标准连接选项生成的源。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。此源节点的名称。
-
ConnectionType– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。提供给底层 AWS Glue 库的
connectionType。此节点类型支持以下连接类型:-
opensearch -
azuresql -
azurecosmos -
bigquery -
saphana -
teradata -
vertica
-
-
Data– 必填:键值对的映射数组。每个键是一个 UTF-8 字符串。
每个值是一个 UTF-8 字符串。
指定节点连接选项的映射。有关相应连接类型的标准连接选项,请参阅 AWS Glue 文档的 连接参数部分。
-
OutputSchemas– GlueSchema 对象的数组。指定该源的数据 Schema。
ConnectorDataTarget 的结构
指定使用标准连接选项生成的目标。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。此目标节点的名称。
-
ConnectionType– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。提供给底层 AWS Glue 库的
connectionType。此节点类型支持以下连接类型:-
opensearch -
azuresql -
azurecosmos -
bigquery -
saphana -
teradata -
vertica
-
-
Data– 必填:键值对的映射数组。每个键是一个 UTF-8 字符串。
每个值是一个 UTF-8 字符串。
指定节点连接选项的映射。有关相应连接类型的标准连接选项,请参阅 AWS Glue 文档的 连接参数部分。
-
Inputs– UTF-8 字符串数组,不少于 1 个字符串,不超过 1 个字符串。作为数据目标输入的节点。
RecipeStep 结构
AWS Glue Studio 数据准备配方节点中使用的配方步骤。
字段
-
Action– 必填:一个 RecipeAction 对象。配方步骤的转换操作。
-
ConditionExpressions– ConditionExpression 对象的数组。配方步骤的条件表达式。
RecipeAction 结构
在 AWS Glue Studio 数据准备配方节点中定义的操作。
字段
-
Operation– 必填:UTF-8 字符串,长度不少于 1 个字节或超过 128 个字节,与 Custom string pattern #54 匹配。配方操作的操作。
-
Parameters– 键值对的映射数组。每个键是一个 UTF-8 字符串,不少于 1 个字节或超过 128 个字节,与 Custom string pattern #55 匹配。
每个值都是一个 UTF-8 字符串,长度不少于 1 个字节,不超过 32768 个字节。
配方操作的参数。
ConditionExpression 结构
在 AWS Glue Studio 数据准备配方节点中定义的条件表达式。
字段
-
Condition– 必填:UTF-8 字符串,长度不少于 1 个字节或超过 128 个字节,与 Custom string pattern #54 匹配。条件表达式的条件。
-
Value– UTF-8 字符串,长度不超过 1024 个字节。条件表达式的条件。
-
TargetColumn– 必填项:UTF-8 字符串,长度不少于 1 个字节,不超过 1024 个字节。条件表达式的目标列。
S3CatalogIcebergSource 结构
指定在 AWS Glue Data Catalog 中注册的 Apache Iceberg 数据来源。Iceberg 数据来源必须存储在 Amazon S3 中。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。Iceberg 数据来源的名称。
-
Database– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中进行读取的数据库的名称。
-
Table– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中进行读取的数据库中的表的名称。
-
AdditionalIcebergOptions– 键值对的映射数组。每个键都是一个 UTF-8 字符串,与 Custom string pattern #59 匹配。
每个值都是一个 UTF-8 字符串,与 Custom string pattern #59 匹配。
指定 Iceberg 数据来源的其他连接选项。
-
OutputSchemas– GlueSchema 对象的数组。指定 Iceberg 源的数据架构。
CatalogIcebergSource 结构
指定在 AWS Glue Data Catalog 中注册的 Apache Iceberg 数据来源。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。Iceberg 数据来源的名称。
-
Database– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中进行读取的数据库的名称。
-
Table– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中进行读取的数据库中的表的名称。
-
AdditionalIcebergOptions– 键值对的映射数组。每个键都是一个 UTF-8 字符串,与 Custom string pattern #59 匹配。
每个值都是一个 UTF-8 字符串,与 Custom string pattern #59 匹配。
指定 Iceberg 数据来源的其他连接选项。
-
OutputSchemas– GlueSchema 对象的数组。指定 Iceberg 源的数据架构。
S3IcebergCatalogTarget 结构
指定一个 Apache Iceberg 目录目标,该目标将数据写入 Amazon S3 并在 AWS Glue Data Catalog 中注册该表。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。Iceberg 目录目标的名称。
-
Inputs– 必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。Iceberg 目录目标的输入连接。
-
PartitionKeys– UTF-8 字符串数组。Iceberg 表的分区键列表。
-
Table– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要写入目录的表的名称。
-
Database– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要向其写入的数据库的名称。
-
AdditionalOptions– 键值对的映射数组。每个键都是一个 UTF-8 字符串,与 Custom string pattern #59 匹配。
每个值都是一个 UTF-8 字符串,与 Custom string pattern #59 匹配。
指定 Iceberg 目录目标的其他连接选项。
-
SchemaChangePolicy– 一个 CatalogSchemaChangePolicy 对象。用于处理目录目标中架构更改的策略。
-
AutoDataQuality– 一个 AutoDataQuality 对象。指定是否为 S3 Iceberg 目录目标自动启用数据质量评估。设置为
true时,则在写入操作期间自动执行数据质量检查。
DynamoDBELTConnectorSource 结构
指定用于从 DynamoDB 表中提取数据的 DynamoDB ELT 连接器源。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。DynamoDB ELT 连接器源的名称。
-
ConnectionOptions– 一个 DDBELTConnectionOptions 对象。DynamoDB ELT 连接器源的连接选项。
-
OutputSchemas– GlueSchema 对象的数组。指定 DynamoDB ELT 连接器源的数据架构。
DDBELTConnectionOptions 结构
指定 DynamoDB ELT(提取、加载、转换)操作的连接选项。该结构包含通过 ELT 连接器连接 DynamoDB 表并从中提取数据的配置参数。
字段
-
DynamodbExport– UTF-8 字符串(有效值:ddb|s3)。指定 DynamoDB 数据提取的导出类型。该参数决定 ELT 过程中从 DynamoDB 表导出数据的方式。
-
DynamodbUnnestDDBJson– 布尔值。一个布尔值,指定数据提取期间是否取消嵌套 DynamoDB JSON 格式。设置为
true时,连接器将展平从 DynamoDB 条目中提取的嵌套 JSON 结构。设置为false时,则保留原始 DynamoDB JSON 结构。 -
DynamodbTableArn– 必填: UTF-8 字符串,与 Custom string pattern #59 匹配。要从中提取数据的 DynamoDB 表的 Amazon 资源名称(ARN)。该参数指定 ELT 操作的源表。
-
DynamodbS3Bucket– UTF-8 字符串,与 Custom string pattern #59 匹配。在 DynamoDB ELT 过程中用于中间存储的 Amazon S3 存储桶的名称。在 ELT 作业处理导出的 DynamoDB 数据之前,该存储桶用于临时存储这些数据。
-
DynamodbS3Prefix– UTF-8 字符串,与 Custom string pattern #59 匹配。在 DynamoDB ELT 过程中存储在中间 S3 存储桶中的文件的 S3 对象键前缀。该前缀用于整理和识别数据提取期间创建的临时文件。
-
DynamodbS3BucketOwner– UTF-8 字符串,与 Custom string pattern #59 匹配。DynamodbS3Bucket中指定的 S3 存储桶所有者的 AWS 账户 ID。当 S3 存储桶的所有者是与运行 ELT 作业的 AWS 账户不同的账户时,该参数为必填项,用于启用对中间存储桶的跨账户访问权限。 -
DynamodbStsRoleArn– UTF-8 字符串,与 Custom string pattern #59 匹配。要代入的 AWS Security Token Service(STS)角色的 Amazon 资源名称(ARN),用于在 ELT 操作期间访问 DynamoDB 和 S3 资源。此角色必须具有所需权限,才能从 DynamoDB 表中读取数据并写入中间 S3 存储桶。
DDBELTCatalogAdditionalOptions 结构
指定 DynamoDB ELT 目录操作的其他选项。
字段
-
DynamodbExport– UTF-8 字符串,与 Custom string pattern #59 匹配。指定 ELT 操作的 DynamoDB 导出配置。
-
DynamodbUnnestDDBJson– 布尔值。指定是否取消嵌套 DynamoDB JSON 格式。设置为
true时,则会展平 DynamoDB 条目中的嵌套 JSON 结构。
路由结构
指定一个路由节点,该节点根据定义的筛选条件,将数据定向到不同的输出路径。
字段
-
Name– 必填: UTF-8 字符串,与 Custom string pattern #61 匹配。路由节点的名称。
-
Inputs– 必填:UTF-8 字符串数组,不少于 1 个或不超过 1 个字符串。路由节点的输入连接。
-
GroupFiltersList– 必填:GroupFilters 对象的数组。定义路由条件的组筛选器列表,用于将数据导向不同的输出路径。
GroupFilters 结构
指定一组带有逻辑运算符的过滤器,用于确定如何组合这些过滤器来评估路由条件。
字段
-
GroupName– 必填: UTF-8 字符串,与 Custom string pattern #58 匹配。筛选器组的名称。
-
Filters– 必填:FilterExpression 对象的数组。筛选表达式列表,定义该组的条件。
-
LogicalOperator– 必填:UTF-8 字符串(有效值:AND|OR)。用于组合该组中筛选器的逻辑运算符。确定是所有筛选器都必须匹配(AND)还是任何筛选器可以匹配(OR)。
AutoDataQuality 结构
指定 AWS Glue 作业中自动执行数据质量评估的配置选项。这种结构支持在 ETL 操作期间自动检查和监控数据质量,有助于确保数据完整性和可靠性,无需手动干预。
字段
-
IsEnabled– 布尔值。指定是否启用自动数据质量评估。设置为
true时,则会自动执行数据质量检查。 -
EvaluationContext– UTF-8 字符串,与 Custom string pattern #59 匹配。自动数据质量检查的评估上下文。这定义了数据质量评估的范围和参数。