ビジュアルジョブ API
ビジュアルジョブ API を使用すると、AWS Glue ジョブのビジュアル設定に対応した JSON オブジェクトから AWS Glue APIを使用して、データ統合ジョブを作成できます。
CodeGenConfigurationNodes のリストは、作成したジョブ用 AWS Glue Studio内のDAG を登録するジョブ API の作成または更新用に提供され、関連するコードを生成します。
データタイプ
CodeGenConfiguration 構造
CodeGenConfigurationNode は、すべての有効なノードタイプを列挙します。そのメンバー変数は 1 つしか入力できません。
フィールド
-
AthenaConnectorSource– AthenaConnectorSource オブジェクト。Amazon Athena データソースへのコネクタを指定します。
-
JDBCConnectorSource– jdbcConnectorSource オブジェクト。JDBC データソースへのコネクタを指定します。
-
SparkConnectorSource– SparkConnectorSource オブジェクト。Apache Spark データソースへのコネクタを指定します。
-
CatalogSource– CatalogSource オブジェクト。AWS Glueデータカタログにデータストアを指定します。
-
RedshiftSource– RedShiftSource オブジェクト。Amazon Redshift データストアを指定します。
-
S3CatalogSource– S3CatalogSource オブジェクト。AWS Glueデータカタログに Amazon S3 データストアを指定します。
-
S3CsvSource– S3CsvSource オブジェクト。Amazon S3 に格納されているコマンド区切り値 (CSV) データストアを指定します。
-
S3JsonSource– S3jsonSource オブジェクト。Amazon S3 の JSON データストアを指定します。
-
S3ParquetSource– S3parquetSource オブジェクト。Amazon S3 に保存されている Apache Parquet データストアを指定します。
-
RelationalCatalogSource– RelationalCatalogSource オブジェクト。AWS Glue データカタログ内のリレーショナルカタログデータストアを指定します。
-
DynamoDBCatalogSource– DynamoDBCatalogSource オブジェクト。AWS Glue データカタログ内の DynamoDBC カタログデータストアを指定します。
-
JDBCConnectorTarget– jdbcConnectorTarget オブジェクト。Apache Parquet 列指向ストレージで Amazon S3 に書き込むデータターゲットを指定します。
-
SparkConnectorTarget– SparkConnectorTarget オブジェクト。Apache Spark コネクタを使用するターゲットを指定します。
-
CatalogTarget– BasicCatalogTarget オブジェクト。AWS Glue データカタログテーブルを使用するターゲットを指定します。
-
RedshiftTarget– RedshiftTarget オブジェクト。Amazon Redshift を使用するターゲットを指定します。
-
S3CatalogTarget– S3CatalogTarget オブジェクト。AWS Glue データカタログを使用して Amazon S3 に書き込むデータターゲットを指定します。
-
S3GlueParquetTarget– S3GlueParquetTarget オブジェクト。Apache Parquet 列指向ストレージで Amazon S3 に書き込むデータターゲットを指定します。
-
S3DirectTarget– S3directTarget オブジェクト。Amazon S3 に書き込むデータターゲットを指定します。
-
ApplyMapping– ApplyMapping オブジェクト。データソースのマップデータプロパティキーを、データターゲットのデータプロパティキーに変換指定します。キーの名前を変更したり、データタイプを変更したり、データセットから削除するキーを選択できます。
-
SelectFields– SelectFields オブジェクト。保持するデータプロパティキーの選択変換を指定します。
-
DropFields– DropFields オブジェクト。削除するデータプロパティキーを選択する変換を指定します。
-
RenameField– RenameField オブジェクト。1 つのデータプロパティキーの名前を変更する変換を指定します。
-
Spigot– スピゴット オブジェクト。Amazon S3 バケットにデータのサンプルを書き込むための変換を指定します。
-
Join– Join オブジェクト。指定したデータプロパティキーの比較フレーズを使用して、2 つのデータセットを 1 つに結合する変換を指定します。結合タイプは、内部結合、外部結合、左結合、右結合、左半結合、左反結合を使用できます。
-
SplitFields– SplitFields オブジェクト。データプロパティキーを 2 つの
DynamicFramesに分割する変換を指定します。出力はDynamicFramesのコレクションです。一方は選択したデータプロパティキー、他方は残っている方のデータプロパティキーを持ちます。 -
SelectFromCollection– SelectFromCollection オブジェクト。DynamicFrameのコレクションから 1 つのDynamicFramesを選択するトランスフォームを指定します。出力は選択されたDynamicFrameです。 -
FillMissingValues– FillMissingValues オブジェクト。変換を使用して、データセット内に欠落値があるレコードを検索し、補完により決定する値を持つ新しいフィールドを追加します。入力データセットは、欠落値を決定する機械学習モデルのトレーニングに使用されます。
-
Filter– フィルター オブジェクト。フィルター条件に基づいて、データセットを 2 つに分割する変換を指定します。
-
CustomCode– CustomCode オブジェクト。データ変換を実行するためにカスタムコードを使用する変換を指定します。結果には、DynamicFrames のコレクションが出力されます。
-
SparkSQL– SparkSQL オブジェクト。データを変換するためにSpark SQL 構文を使用して、SQL クエリを入力する変換を指定します。出力は、単一の
DynamicFrameです。 -
DirectKinesisSource– DirectKinesisSource オブジェクト。直接 Amazon Kinesis データソースを指定します。
-
DirectKafkaSource– DirectKafkaSource オブジェクト。Apache Kafka データストアを指定します。
-
CatalogKinesisSource– CatalogKinesisSource オブジェクト。AWS Glueデータカタログで Kinesis データソースを指定します。
-
CatalogKafkaSource– CatalogKafkaSource オブジェクト。データカタログで Apache Kafka データストアを指定します。
-
DropNullFields– DropNullFields オブジェクト。列のすべての値が「null」である場合、データセットから列を削除する変換を指定します。デフォルトでは、AWS Glue Studio は null オブジェクトを認識しますが、空の文字列、『null』が 1 の整数、または 0 などのプレースホルダなどの文字列では、自動的に『null』として認識されません。
-
Merge– 結合 オブジェクト。レコードを識別するために、プライマリキーに基づいて
DynamicFrameとステージングDynamicFrameを結合する変換を指定します。重複レコード(同じプライマリキーを持つレコード)は重複除外されません。 -
Union– Union オブジェクト。2 つ以上のデータセットの行を 1 つの結果に結合する変換を指定します。
-
PIIDetection– PIIDetection オブジェクト。PII データを識別、削除、またはマスクする変換を指定します。
-
Aggregate– 集計 オブジェクト。選択したフィールドによって行をグループ化し、指定された関数を使用して集計値を計算する変換を指定します。
-
DropDuplicates– DropDuplicates オブジェクト。繰り返しデータの行をデータセットから削除する変換を指定します。
-
GovernedCatalogTarget– GovernedCatalogTarget オブジェクト。管理されたカタログに書き込むデータターゲットを指定します。
-
GovernedCatalogSource– GovernedCatalogSource オブジェクト。管理されたデータカタログ内のデータソースを指定します。
-
MicrosoftSQLServerCatalogSource– MicrosoftSQLServerCatalogSource オブジェクト。AWS Glueデータカタログ内の Microsoft SQL Server データソースを指定します。
-
MySQLCatalogSource– MySQLCatalogSource オブジェクト。AWS Glueデータカタログ内の MySQL データソースを指定します。
-
OracleSQLCatalogSource– OracleSQLCatalogSource オブジェクト。AWS Glueデータカタログ内の Oracle データソースを指定します。
-
PostgreSQLCatalogSource– PostgreSQLCatalogSource オブジェクト。AWS Glueデータカタログ内の PostgresSQL データソースを指定します。
-
MicrosoftSQLServerCatalogTarget– MicrosoftSQLServerCatalogTarget オブジェクト。Microsoft SQL を使用するターゲットを指定します。
-
MySQLCatalogTarget– MySQLCatalogTarget オブジェクト。MySQL を使用するターゲットを指定します。
-
OracleSQLCatalogTarget– OracleSQLCatalogTarget オブジェクト。Oracle SQL を使用するターゲットを指定します。
-
PostgreSQLCatalogTarget– PostgreSQLCatalogTarget オブジェクト。Postgres SQL を使用するターゲットを指定します。
-
Route– ルート オブジェクト。定義されたフィルタリング条件に基づいてデータを異なる出力パスに送信するルートノードを指定します。
-
DynamicTransform– DynamicTransform オブジェクト。ユーザーが作成したカスタムビジュアル変換を指定します。
-
EvaluateDataQuality– EvaluateDataQuality オブジェクト。データ品質評価基準を指定します。
-
S3CatalogHudiSource– S3CatalogHudiSource オブジェクト。AWS Glue データカタログ内に登録されている Hudi データソースを指定します。データソースは Amazon S3 に保存する必要があります。
-
CatalogHudiSource– CatalogHudiSource オブジェクト。AWS Glue データカタログ内に登録されている Hudi データソースを指定します。
-
S3HudiSource– S3HudiSource オブジェクト。Amazon S3 内に保存されている Hudi データソースを指定します。
-
S3HudiCatalogTarget– S3HudiCatalogTarget オブジェクト。AWS Glue データカタログ内の Hudi データソースに書き込むターゲットを指定します。
-
S3HudiDirectTarget– S3HudiDirectTarget オブジェクト。Amazon S3 内の Hudi データソースに書き込むターゲットを指定します。
-
S3CatalogDeltaSource– S3CatalogDeltaSource オブジェクト。AWS Glue データカタログ内に登録されている Delta Lake データソースを指定します。データソースは Amazon S3 に保存する必要があります。
-
CatalogDeltaSource– CatalogDeltaSource オブジェクト。AWS Glue データカタログ内に登録されている Delta Lake データソースを指定します。
-
S3DeltaSource– S3DeltaSource オブジェクト。Amazon S3 内に保存されている Delta Lake データソースを指定します。
-
S3DeltaCatalogTarget– S3DeltaCatalogTarget オブジェクト。AWS Glue データカタログ内の Delta Lake データソースに書き込むターゲットを指定します。
-
S3DeltaDirectTarget– S3DeltaDirectTarget オブジェクト。Amazon S3 内の Delta Lake データソースに書き込むターゲットを指定します。
-
AmazonRedshiftSource– AmazonRedshiftSource オブジェクト。Amazon Redshift 内のデータソースに書き込むターゲットを指定します。
-
AmazonRedshiftTarget– AmazonRedshiftTarget オブジェクト。Amazon Redshift 内のデータターゲットに書き込むターゲットを指定します。
-
EvaluateDataQualityMultiFrame– EvaluateDataQualityMultiFrame オブジェクト。データ品質評価基準を指定します。複数の入力データを許可し、DynamicFrames のコレクションを返します。
-
Recipe– レシピ オブジェクト。AWS Glue DataBrew レシピノードを指定します。
-
SnowflakeSource– SnowflakeSource オブジェクト。Snowflake データソースを指定します。
-
SnowflakeTarget– SnowflakeTarget オブジェクト。Snowflake データソースに書き込むターゲットを指定します。
-
ConnectorDataSource– ConnectorDataSource オブジェクト。標準の接続オプションを使用して生成されたソースを指定します。
-
ConnectorDataTarget– ConnectorDataTarget オブジェクト。標準の接続オプションを使用して生成されたターゲットを指定します。
-
S3CatalogIcebergSource– S3CatalogIcebergSource オブジェクト。AWS Glue データカタログ内に登録されている Apache Iceberg データソースを指定します。Iceberg データソースは Amazon S3 に保存する必要があります。
-
CatalogIcebergSource– CatalogIcebergSource オブジェクト。AWS Glue データカタログ内に登録されている Apache Iceberg データソースを指定します。
-
S3IcebergCatalogTarget– S3IcebergCatalogTarget オブジェクト。Amazon S3 にデータを書き込み、AWS Glue データカタログにテーブルを登録する Apache Iceberg カタログターゲットを指定します。
-
S3IcebergDirectTarget– S3IcebergDirectTarget オブジェクト。Apache Iceberg テーブルとして Amazon S3 にデータを書き込むための設定パラメータを定義します。
-
S3ExcelSource– S3ExcelSource オブジェクト。Amazon S3 の Excel ファイルを読み取るための設定パラメータを定義します。
-
S3HyperDirectTarget– S3HyperDirectTarget オブジェクト。HyperDirect の最適化機能を使用して Amazon S3 にデータを書き込むための設定パラメータを定義します。
-
DynamoDBELTConnectorSource– DynamoDBELTConnectorSource オブジェクト。DynamoDB テーブルからデータを抽出するための DynamoDB ELT コネクタソースを指定します。
JDBCConnectorOptions 構造
コネクタの追加接続オプション。
フィールド
-
FilterPredicate– UTF-8 文字列。Custom string pattern #61 に一致。ソースからのデータをフィルタリングする追加の条件句。例:
BillingCity='Mountain View'テーブル名ではなくクエリを使用する場合は、指定された
filterPredicateでクエリが動作することを確認します。 -
PartitionColumn– UTF-8 文字列。Custom string pattern #61 に一致。パーティショニングに使用される整数列の名前。このオプションは、
lowerBound、upperBound、およびnumPartitionsに含まれている場合にのみ機能します。このオプションの機能は、Spark SQL JDBC リーダーのものと同様です。 -
LowerBound– 数値 (long)。None 以下。パーティションストライドを決定するために使用される
partitionColumnの最小値を示す整数。 -
UpperBound– 数値 (long)。None 以下。パーティションストライドを決定するために使用される
partitionColumnの最大値を示す整数。 -
NumPartitions– 数値 (long)。None 以下。パーティション数。この値は、
lowerBound(範囲に含まれる) とupperBound(範囲に含まれない) とともに使用され、partitionColumnの分割で使用するために生成されたWHERE句の式のためのパーティションストライドを形成します。 -
JobBookmarkKeys– UTF-8 文字列の配列。ソートするジョブブックマークキーの名前。
-
JobBookmarkKeysSortOrder– UTF-8 文字列。Custom string pattern #61 に一致。昇順または降順のソート順を指定します。
-
DataTypeMapping– キーバリューペアのマップ配列。各キーは UTF-8 文字列 (有効な値:
ARRAY|BIGINT|BINARY|BIT|BLOB|BOOLEAN|CHAR|CLOB|DATALINK|DATE|DECIMAL|DISTINCT|DOUBLE|FLOAT|INTEGER|JAVA_OBJECT|LONGNVARCHAR|LONGVARBINARY|LONGVARCHAR|NCHAR|NCLOB|NULL|NUMERIC|NVARCHAR|OTHER|REAL|REF|REF_CURSOR|ROWID|SMALLINT|SQLXML|STRUCT|TIME|TIME_WITH_TIMEZONE|TIMESTAMP|TIMESTAMP_WITH_TIMEZONE|TINYINT|VARBINARY|VARCHAR) です。各値は UTF-8 文字列 (有効な値:
DATE|STRING|TIMESTAMP|INT|FLOAT|LONG|BIGDECIMAL|BYTE|SHORT|DOUBLE) です。JDBC データタイプ から AWS Glue データタイプに対するマッピングを構築する、カスタムのデータタイプマッピング。例えば、オプション
"dataTypeMapping":{"FLOAT":"STRING"}はドライバーのResultSet.getString()メソッドを呼び出すことで、JDBC タイプのFLOATのデータフィールドを JavaStringタイプにマッピングし、それを使用して AWS Glue レコード を構築します。ResultSetオブジェクトは各ドライバによって実装されるため、その動作は使用するドライバにより決定されます。ドライバによる変換の実行方法については、JDBC ドライバのドキュメントを参照してください。
StreamingDataProviewOptions 構造
データのサンプルを表示するためのデータプレビューに関連するオプションを指定します。
フィールド
-
PollingTime– 10 以上の数値 (long)。ミリ秒単位のポーリング時間。
-
RecordPollingLimit– 1 以上の数値 (long)。ポーリングされるレコード数の制限。
AthenaConnectorSource 構造
Amazon Athena データソースへのコネクタを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データソースの名前。
-
ConnectionName– 必須: UTF-8 文字列。Custom string pattern #61 に一致。コネクタに関連付けられている接続の名前。
-
ConnectorName– 必須: UTF-8 文字列。Custom string pattern #61 に一致。AWS Glue Stuido のデータストアへのアクセスを支援するコネクタの名前。
-
ConnectionType– 必須: UTF-8 文字列。Custom string pattern #61 に一致。marketplace.athena や custom.athena など、Amazon Athena データストアへの接続を指定する接続のタイプ。
-
ConnectionTable– UTF-8 文字列。Custom string pattern #61 に一致。データソース内のテーブルの名前。
-
SchemaName– 必須: UTF-8 文字列。Custom string pattern #61 に一致。読み取り元となる Cloudwatch ロググループの名前。例えば、
/aws-glue/jobs/output。 -
OutputSchemas– GlueSchema オブジェクトの配列。カスタム Athena ソース用のデータスキーマを指定します。
JDBCConnectorSource 構造
JDBC データソースへのコネクタを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データソースの名前。
-
ConnectionName– 必須: UTF-8 文字列。Custom string pattern #61 に一致。コネクタに関連付けられている接続の名前。
-
ConnectorName– 必須: UTF-8 文字列。Custom string pattern #61 に一致。AWS Glue Stuido のデータストアへのアクセスを支援するコネクタの名前。
-
ConnectionType– 必須: UTF-8 文字列。Custom string pattern #61 に一致。marketplace.jdbc や custom.jdbc など、JDBC データストアへの接続を指定する接続のタイプ。
-
AdditionalOptions– JDBCConnectorOptions オブジェクト。コネクタの追加接続オプション。
-
ConnectionTable– UTF-8 文字列。Custom string pattern #61 に一致。データソース内のテーブルの名前。
-
Query– UTF-8 文字列。Custom string pattern #62 に一致。データを取得するテーブルまたは SQL クエリ。
ConnectionTableまたはqueryを指定できます。両方を指定することはできません。 -
OutputSchemas– GlueSchema オブジェクトの配列。カスタム JDBC ソース用のデータスキーマを指定します。
SparkConnectorSource 構造
Apache Spark データソースへのコネクタを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データソースの名前。
-
ConnectionName– 必須: UTF-8 文字列。Custom string pattern #61 に一致。コネクタに関連付けられている接続の名前。
-
ConnectorName– 必須: UTF-8 文字列。Custom string pattern #61 に一致。AWS Glue Stuido のデータストアへのアクセスを支援するコネクタの名前。
-
ConnectionType– 必須: UTF-8 文字列。Custom string pattern #61 に一致。marketplace.spark や custom.spark などのApache Spark データストアへの接続を指定する接続のタイプ。
-
AdditionalOptions– キーバリューペアのマップ配列。各キーは、Custom string pattern #61 に適合する UTF-8 文字列です。
各値は、Custom string pattern #61 に適合する UTF-8 文字列です。
コネクタの追加接続オプション。
-
OutputSchemas– GlueSchema オブジェクトの配列。カスタム Spark ソース用のデータスキーマを指定します。
CatalogSource 構造
AWS Glueデータカタログにデータストアを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データストアの名前。
-
Database– 必須: UTF-8 文字列。Custom string pattern #61 に一致。読み取りデータベースの名前。
-
Table– 必須: UTF-8 文字列。Custom string pattern #61 に一致。読み取りデータベースのテーブルの名前。
-
PartitionPredicate– UTF-8 文字列。Custom string pattern #61 に一致。この述語を満たすパーティションは削除されます。これらのパーティションの保存期間内のファイルは削除されません。
-
OutputSchemas– GlueSchema オブジェクトの配列。カタログソース用のデータスキーマを指定します。
MySQLCatalogSource 構造
AWS Glueデータカタログ内の MySQL データソースを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データソースの名前。
-
Database– 必須: UTF-8 文字列。Custom string pattern #61 に一致。読み取りデータベースの名前。
-
Table– 必須: UTF-8 文字列。Custom string pattern #61 に一致。読み取りデータベースのテーブルの名前。
PostgreSQLCatalogSource 構造
AWS Glueデータカタログ内の PostgresSQL データソースを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データソースの名前。
-
Database– 必須: UTF-8 文字列。Custom string pattern #61 に一致。読み取りデータベースの名前。
-
Table– 必須: UTF-8 文字列。Custom string pattern #61 に一致。読み取りデータベースのテーブルの名前。
OracleSQLCatalogSource 構造
AWS Glueデータカタログ内の Oracle データソースを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データソースの名前。
-
Database– 必須: UTF-8 文字列。Custom string pattern #61 に一致。読み取りデータベースの名前。
-
Table– 必須: UTF-8 文字列。Custom string pattern #61 に一致。読み取りデータベースのテーブルの名前。
MicrosoftSQLServerCatalogSource 構造
AWS Glueデータカタログ内の Microsoft SQL Server データソースを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データソースの名前。
-
Database– 必須: UTF-8 文字列。Custom string pattern #61 に一致。読み取りデータベースの名前。
-
Table– 必須: UTF-8 文字列。Custom string pattern #61 に一致。読み取りデータベースのテーブルの名前。
CatalogKinesisSource 構造
AWS Glueデータカタログで Kinesis データソースを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データソースの名前。
-
WindowSize– 数値 (整数)、None 以下。各マイクロバッチの処理にかかる時間。
-
DetectSchema– ブール。受信データからスキーマを自動的に決定するかの有無。
-
Table– 必須: UTF-8 文字列。Custom string pattern #61 に一致。読み取りデータベースのテーブルの名前。
-
Database– 必須: UTF-8 文字列。Custom string pattern #61 に一致。読み取りデータベースの名前。
-
StreamingOptions– KinesisStreamingSourceOptions オブジェクト。Kinesis ストリーミングデータソースの追加オプション。
-
DataPreviewOptions– StreamingDataPreviewOptions オブジェクト。データプレビューの追加オプション。
DirectKinesisSource 構造
直接 Amazon Kinesis のデータソースを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データソースの名前。
-
WindowSize– 数値 (整数)、None 以下。各マイクロバッチの処理にかかる時間。
-
DetectSchema– ブール。受信データからスキーマを自動的に決定するかどうか。
-
StreamingOptions– KinesisStreamingSourceOptions オブジェクト。Kinesis ストリーミングデータソースの追加オプション。
-
DataPreviewOptions– StreamingDataPreviewOptions オブジェクト。データプレビューの追加オプション。
KinesisStreamingSourceOptions 構造
Amazon Kinesis ストリーミングデータソースの追加オプション。
フィールド
-
EndpointUrl– UTF-8 文字列。Custom string pattern #61 に一致。Kinesis エンドポイントの URL。
-
StreamName– UTF-8 文字列。Custom string pattern #61 に一致。Kinesis データストリームの名前。
-
Classification– UTF-8 文字列。Custom string pattern #61 に一致。オプションの分類。
-
Delimiter– UTF-8 文字列。Custom string pattern #61 に一致。区切り記号文字を指定します。
-
StartingPosition– UTF-8 文字列 (有効な値:latest="LATEST"|trim_horizon="TRIM_HORIZON"|earliest="EARLIEST"|timestamp="TIMESTAMP")。Kinesis データストリーム内の、データの読み取り開始位置。指定できる値は
"latest"、"trim_horizon"、"earliest"、またはパターンyyyy-mm-ddTHH:MM:SSZの UTC 形式のタイムスタンプ文字列 (Zは UTC タイムゾーンのオフセットを +/- で表します。例: 『2023-04-04T08:00:00-04:00』) です。デフォルト値は"latest"です。注意: 「StartingPosition」の値に UTC 形式のタイムスタンプ文字列を使用できるのは、AWS Glue バージョン 4.0 以降のみです。
-
MaxFetchTimeInMs– 数値 (long)。None 以下。ジョブエグゼキューターが Kinesis データストリームから現在のバッチのレコードを読み取るために費やした最大時間は、ミリ秒 (ms) 単位で指定されます。この時間内に複数の
GetRecordsAPI コールを行うことができます。デフォルト値は1000です。 -
MaxFetchRecordsPerShard– 数値 (long)。None 以下。1 マイクロバッチ当たりに Kinesis データストリームでシャードごとにフェッチするレコードの最大数。メモ: ストリーミングジョブが既に Kinesis (同じ get-records 呼び出しで) から余分なレコードを読み取っている場合、クライアントはこの制限を超えることができます。
MaxFetchRecordsPerShardが厳密である必要がある場合、MaxRecordPerReadの倍数にする必要があります。デフォルト値は100000です。 -
MaxRecordPerRead– 数値 (long)。None 以下。各 getRecords オペレーションごとに、Kinesis データストリームからフェッチするレコードの最大数。デフォルト値は
10000です。 -
AddIdleTimeBetweenReads– ブール。2 つの連続する getRecords オペレーション間の遅延時間を追加します。デフォルト値は
"False"です。このオプションは、AWS Glue バージョン 2.0 以降でのみ設定可能です。 -
IdleTimeBetweenReadsInMs– 数値 (long)。None 以下。2 つの連続する getRecords オペレーション間での、最短の遅延時間 (ミリ秒単位で指定)。デフォルト値は
1000です。このオプションは、AWS Glue バージョン 2.0 以降でのみ設定可能です。 -
DescribeShardInterval– 数値 (long)。None 以下。スクリプトが呼び出す 2 つの ListShards API コール間での、再シャーディングを考慮すべき最小時間。デフォルト値は
1sです。 -
NumRetries– 数値 (整数)、None 以下。Kinesis Data Streams API リクエストを再試行する最大の回数。デフォルト値は
3です。 -
RetryIntervalMs– 数値 (long)。None 以下。Kinesis Data Streams API 呼び出しを再試行するまでのクールオフ期間 (ミリ秒単位で指定)。デフォルト値は
1000です。 -
MaxRetryIntervalMs– 数値 (long)。None 以下。再試行で 2 つの Kinesis Data Streams API を呼び出す間の最大クールオフ期間 (ミリ秒単位で指定)。デフォルト値は
10000です。 -
AvoidEmptyBatches– ブール。バッチ処理を開始する前に、Kinesis データストリームで未読のデータをチェックすることで、空のマイクロバッチジョブを作成しないようにします。デフォルト値は
"False"です。 -
StreamArn– UTF-8 文字列。Custom string pattern #61 に一致。Kinesis データストリームの Amazon リソースネーム (ARN)。
-
RoleArn– UTF-8 文字列。Custom string pattern #61 に一致。AWS Security Token Service (AWS STS) の使用を引き受けるロールの、Amazon リソースネーム (ARN)。このロールには、Kinesis データストリームのレコードの説明操作または読み取り操作の権限が必要です。このパラメーターは、別のアカウントのデータストリームにアクセスするときに使用する必要があります。
"awsSTSSessionName"と組み合わせて使用します。 -
RoleSessionName– UTF-8 文字列。Custom string pattern #61 に一致。AWS STS を使用するロールを引き受ける、セッションの識別子。このパラメータは、別のアカウントのデータストリームにアクセスするときに使用する必要があります。
"awsSTSRoleARN"と組み合わせて使用します。 -
AddRecordTimestamp– UTF-8 文字列。Custom string pattern #61 に一致。このオプションが「true」に設定されている場合、データ出力には、対応するレコードがストリームによって受信された時刻を表示する「__src_timestamp」という名前が付けられた追加の列が含まれます。デフォルト値は、「false」です。このオプションは AWS Glue バージョン 4.0 以降でサポートされています。
-
EmitConsumerLagMetrics– UTF-8 文字列。Custom string pattern #61 に一致。このオプションを「true」に設定すると、バッチごとに、ストリームが受信した最も古いレコードと、それが AWS Glue で CloudWatch に到着した時間との間隔のメトリクスが出力されます。メトリクスの名前は「glue.driver.streaming.maxConsumerLagInMs」です。デフォルト値は、「false」です。このオプションは AWS Glue バージョン 4.0 以降でサポートされています。
-
StartingTimestamp– UTF–8 文字列。データの読み取りを開始する Kinesis データストリーム内のレコードのタイムスタンプ。指定できる値は、パターン
yyyy-mm-ddTHH:MM:SSZのUTC 形式のタイムスタンプ文字列 (Z は UTC タイムゾーンのオフセットを +/- で表します。例: 『2023-04-04T08:00:00+08:00』) です。 -
FanoutConsumerARN– UTF-8 文字列。Custom string pattern #61 に一致。Kinesis データストリームの強化されたファンアウトコンシューマーの Amazon リソースネーム (ARN)。指定すると、専用のスループットと低レイテンシーのデータ消費のために拡張ファンアウトが有効になります。
CatalogKafkaSource 構造
データカタログで Apache Kafka データストアを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データストアの名前。
-
WindowSize– 数値 (整数)、None 以下。各マイクロバッチの処理にかかる時間。
-
DetectSchema– ブール。受信データからスキーマを自動的に決定するかの有無。
-
Table– 必須: UTF-8 文字列。Custom string pattern #61 に一致。読み取りデータベースのテーブルの名前。
-
Database– 必須: UTF-8 文字列。Custom string pattern #61 に一致。読み取りデータベースの名前。
-
StreamingOptions– KafkaStreamingSourceOptions オブジェクト。ストリーミングオプションを指定します。
-
DataPreviewOptions– StreamingDataPreviewOptions オブジェクト。データのサンプルを表示するためのデータプレビューに関連するオプションを指定します。
DirectKafkaSource 構造
Apache Kafka データストアを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データストアの名前。
-
StreamingOptions– KafkaStreamingSourceOptions オブジェクト。ストリーミングオプションを指定します。
-
WindowSize– 数値 (整数)、None 以下。各マイクロバッチの処理にかかる時間。
-
DetectSchema– ブール。受信データからスキーマを自動的に決定するかどうか。
-
DataPreviewOptions– StreamingDataPreviewOptions オブジェクト。データのサンプルを表示するためのデータプレビューに関連するオプションを指定します。
KafkaStreamingSourceOptions 構造
ストリーミングの追加オプション。
フィールド
-
BootstrapServers– UTF-8 文字列。Custom string pattern #61 に一致。ブートストラップサーバーの URL のリスト (例:
b-1.vpc-test-2.o4q88o.c6.kafka.us-east-1.amazonaws.com:9094)。このオプションは API 呼び出しで指定するか、データカタログ内のテーブルメタデータで定義する必要があります。 -
SecurityProtocol– UTF-8 文字列。Custom string pattern #61 に一致。ブローカーと通信するために使用されるプロトコル。使用できる値は、
"SSL"または"PLAINTEXT"です。 -
ConnectionName– UTF-8 文字列。Custom string pattern #61 に一致。コレクションの名前。
-
TopicName– UTF-8 文字列。Custom string pattern #61 に一致。Apache Kafka で指定されたトピック名。少なくくとも
"topicName"、"assign"、"subscribePattern"の内いずれかを指定する必要があります。 -
Assign– UTF-8 文字列。Custom string pattern #61 に一致。消費する特有の
TopicPartitions。少なくくとも"topicName"、"assign"、"subscribePattern"の内いずれかを指定する必要があります。 -
SubscribePattern– UTF-8 文字列。Custom string pattern #61 に一致。サブスクライブする先のトピックリストを識別する Java の正規表現文字列。少なくくとも
"topicName"、"assign"、"subscribePattern"の内いずれかを指定する必要があります。 -
Classification– UTF-8 文字列。Custom string pattern #61 に一致。オプションの分類。
-
Delimiter– UTF-8 文字列。Custom string pattern #61 に一致。区切り記号文字を指定します。
-
StartingOffsets– UTF-8 文字列。Custom string pattern #61 に一致。Kafka トピック内で、データの読み取りを開始する位置。使用できる値は、
"earliest"または"latest"です。デフォルト値は"latest"です。 -
EndingOffsets– UTF-8 文字列。Custom string pattern #61 に一致。バッチクエリの終了位置。設定が可能な値は、
"latest"または、各TopicPartitionの終了オフセットを指定する JSON 文字列のいずれかです。 -
PollTimeoutMs– 数値 (long)。None 以下。Spark ジョブエグゼキュータで、Kafka からデータをポーリングする際のタイムアウト値 (ミリ秒単位)。デフォルト値は
512です。 -
NumRetries– 数値 (整数)、None 以下。Kafka オフセットのフェッチが失敗したと判断される前の再試行回数。デフォルト値は
3です。 -
RetryIntervalMs– 数値 (long)。None 以下。Kafka オフセットのフェッチを開始するまでの待機時間 (ミリ秒)。デフォルト値は
10です。 -
MaxOffsetsPerTrigger– 数値 (long)。None 以下。処理されるオフセットの最大数を、トリガー間隔ごとのレート上限で指定する値。指定されたオフセットの合計数は、異なるボリュームの
topicPartitions間で均等に分割されます。デフォルト値はnullです。この場合、コンシューマーは既知の最新のオフセットまで、すべてのオフセットを読み取ります。 -
MinPartitions– 数値 (整数)、None 以下。Kafka から読み取ることを想定する、最小のパーティション数。デフォルト値はnullです。これは、Spark パーティションの数が Kafka パーティションの数に等しいことを意味します。
-
IncludeHeaders– ブール。Kafka ヘッダーを含めるかどうかを決定します。このオプションが『true』に設定されている場合、データ出力には、『glue_streaming_kafka_headers』という名前で
Array[Struct(key: String, value: String)]タイプの列が追加されます。デフォルト値は『false』です。このオプションは AWS Glue バージョン 3.0 以降でのみ使用可能です。 -
AddRecordTimestamp– UTF-8 文字列。Custom string pattern #61 に一致。このオプションが「true」に設定されている場合、データ出力には、対応するレコードがトピックによって受信された時刻を表示する「__src_timestamp」という名前が付けられた追加の列が含まれます。デフォルト値は、「false」です。このオプションは AWS Glue バージョン 4.0 以降でサポートされています。
-
EmitConsumerLagMetrics– UTF-8 文字列。Custom string pattern #61 に一致。このオプションを 'true' に設定すると、バッチごとに、トピックが受信した最も古いレコードと、それが AWS Glue で CloudWatch に到着した時間との間隔のメトリクススが出力されます。メトリクスの名前は「glue.driver.streaming.maxConsumerLagInMs」です。デフォルト値は、「false」です。このオプションは AWS Glue バージョン 4.0 以降でサポートされています。
-
StartingTimestamp– UTF–8 文字列。データの読み取りを開始する Kafka トピック内のレコードのタイムスタンプ。指定できる値は、パターン
yyyy-mm-ddTHH:MM:SSZのUTC 形式のタイムスタンプ文字列 (Z は UTC タイムゾーンのオフセットを +/- で表します。例: 『2023-04-04T08:00:00+08:00』) です。StartingTimestampまたはStartingOffsetsのいずれかのみを設定する必要があります。
RedShiftSource 構造
Amazon Redshift データストアを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。Amazon Redshift データストアの名前。
-
Database– 必須: UTF-8 文字列。Custom string pattern #61 に一致。読み込むデータベース。
-
Table– 必須: UTF-8 文字列。Custom string pattern #61 に一致。読み取り元のデータベーステーブル。
-
RedshiftTmpDir– UTF-8 文字列。Custom string pattern #61 に一致。データベースからコピーするときに一時データをステージングできる Amazon S3 パス。
-
TmpDirIAMRole– UTF-8 文字列。Custom string pattern #61 に一致。アクセス許可を持つ IAM ロール。
AmazonRedshiftSource 構造
Amazon Redshift ソースを指定します。
フィールド
-
Name– UTF-8 文字列。Custom string pattern #63 に一致。Amazon Redshift ソースの名前。
-
Data– AmazonRedshiftNodeData オブジェクト。Amazon Reshift ソースノードのデータを指定します。
AmazonRedshiftNodeData 構造
Amazon Redshift ノードを指定します。
フィールド
-
AccessType– UTF-8 文字列。Custom string pattern #60 に一致。Redshift 接続のアクセスタイプ。直接接続またはカタログ接続が可能です。
-
SourceType– UTF-8 文字列。Custom string pattern #60 に一致。特定のテーブルがソースかカスタムクエリかを指定するソースタイプ。
-
Connection– オプション オブジェクト。Redshift クラスターへの AWS Glue の接続。
-
Schema– オプション オブジェクト。直接接続で作業するときの Redshift スキーマの名前。
-
Table– オプション オブジェクト。直接接続で作業するときの Redshift テーブルの名前。
-
CatalogDatabase– オプション オブジェクト。データカタログで作業するときの AWS Glue データカタログデータベースの名前。
-
CatalogTable– オプション オブジェクト。データカタログで作業するときの AWS Glue データカタログテーブルの名前。
-
CatalogRedshiftSchema– UTF–8 文字列。データカタログで作業するときの Redshift スキーマの名前。
-
CatalogRedshiftTable– UTF–8 文字列。読み取り元のデータベーステーブル。
-
TempDir– UTF-8 文字列。Custom string pattern #61 に一致。データベースからコピーするときに一時データをステージングできる Amazon S3 パス。
-
IamRole– オプション オブジェクト。オプション。S3 に接続するときに使用するロールの名前。空欄のままにすると、IAM ロールはデフォルトでジョブのロールになります。
-
AdvancedOptions– AmazonRedshiftAdvancedOption オブジェクトの配列。Redshift クラスターに接続するときのオプションの値。
-
SampleQuery– UTF–8 文字列。SourceType が「query」の場合に Redshift ソースからデータを取得するために使用される SQL。
-
PreAction– UTF–8 文字列。upsert を用いる MERGE または APPEND を実行する前に使用される SQL。
-
PostAction– UTF–8 文字列。upsert を用いる MERGE または APPEND を実行する前に使用される SQL。
-
Action– UTF–8 文字列。Redshift クラスターへの書き込み方法を指定します。
-
TablePrefix– UTF-8 文字列。Custom string pattern #60 に一致。テーブルへのプレフィックスを指定します。
-
Upsert– ブール。APPEND を実行するときに Redshift シンクで使用するアクション。
-
MergeAction– UTF-8 文字列。Custom string pattern #60 に一致。Redshift シンク内の MERGE の処理方法を決定するときに使用するアクション。
-
MergeWhenMatched– UTF-8 文字列。Custom string pattern #60 に一致。既存のレコードが新しいレコードと一致する場合、Redshift シンク内の MERGE の処理方法を決定するときに使用するアクション。
-
MergeWhenNotMatched– UTF-8 文字列。Custom string pattern #60 に一致。既存のレコードが新しいレコードと一致しない場合、Redshift シンク内の MERGE の処理方法を決定するときに使用するアクション。
-
MergeClause– UTF–8 文字列。一致するレコードを処理するためにカスタムマージで使用される SQL。
-
CrawlerConnection– UTF–8 文字列。使用するカタログテーブルに関連する接続の名前を指定します。
-
TableSchema– オプション オブジェクトの配列。特定のノードにおけるスキーマ出力の配列。
-
StagingTable– UTF–8 文字列。upsert を用いる MERGE または APPEND を実行するときに使用する一時的なステージングテーブルの名前。
-
SelectedColumns– オプション オブジェクトの配列。upsert を用いる MERGE または APPEND を実行するときに、一致するレコードを決定するために使用する列の名前のリスト。
AmazonRedshiftAdvancedOption 構造
Redshift クラスターに接続するときのオプションの値を指定します。
フィールド
-
Key– UTF-8 文字列。追加接続オプションのキー。
-
Value– UTF–8 文字列。追加接続オプションの値。
Option 構造
オプションの値を指定します。
フィールド
-
Value– UTF-8 文字列。Custom string pattern #61 に一致。オプションの値を指定します。
-
Label– UTF-8 文字列。Custom string pattern #61 に一致。オプションのラベルを指定します。
-
Description– UTF-8 文字列。Custom string pattern #61 に一致。オプションの説明を指定します。
S3CatalogSource 構造
AWS Glueデータカタログに Amazon S3 データストアを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データストアの名前。
-
Database– 必須: UTF-8 文字列。Custom string pattern #61 に一致。読み込むデータベース。
-
Table– 必須: UTF-8 文字列。Custom string pattern #61 に一致。読み取り元のデータベーステーブル。
-
PartitionPredicate– UTF-8 文字列。Custom string pattern #61 に一致。この述語を満たすパーティションは削除されます。これらのパーティションの保存期間内のファイルは削除されません。
""を設定 – デフォルトでは空です。 -
AdditionalOptions– S3SourceAdditionalOptions オブジェクト。追加の接続オプションを指定します。
S3SourceAdditionalOptions 構造
Amazon S3 データストアの追加の接続オプションを指定します。
フィールド
-
BoundedSize– 数値 (long)。処理されるバイトのデータセットのターゲットサイズの上限を設定します。
-
BoundedFiles– 数値 (long)。処理されるファイルのターゲット数の上限を設定します。
S3CsvSource 構造
Amazon S3 に格納されているコマンド区切り値 (CSV) データストアを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データストアの名前。
-
Paths– 必須: UTF-8 文字列の配列。読み取りのソースとなる Amazon S3 パスのリスト。
-
CompressionType– UTF-8 文字列 (有効な値:gzip="GZIP"|bzip2="BZIP2")。データの圧縮方法を指定します。データに標準のファイル拡張子が付いている場合、このオプションは一般的に不要です。指定できる値は
"gzip"および"bzip"です。 -
Exclusions– UTF-8 文字列の配列。除外する Unix スタイルの glob パターンの JSON リストを含む文字列。例えば、"[\"**.pdf\"]" はすべての PDF ファイルを除外します。
-
GroupSize– UTF-8 文字列。Custom string pattern #61 に一致。ターゲットグループのサイズ (バイト単位)。デフォルトは、入力データのサイズとクラスターのサイズに基づいて計算されます。入力ファイルが 50,000 個未満の場合、このオプションを有効にするには、
"groupFiles"を"inPartition"に設定する必要があります。 -
GroupFiles– UTF-8 文字列。Custom string pattern #61 に一致。入力ファイルが 50,000 個を超える場合、デフォルトでファイルのグループ化が有効化されます。入力ファイルが 50,000 個未満の場合にグループ化を有効化するには、このパラメータに『inPartition』を設定します。入力ファイルが 50,000 個を超える場合に、グループ化を無効にするには、このパラメータを
"none"に設定します。 -
Recurse– ブール。true に設定した場合は、指定したパスの下にあるすべてのサブディレクトリ内のファイルを再帰的に読み取ります。
-
MaxBand– 数値 (整数)、None 以下。このオプションでは、s3 リストの一貫性が認められるまでの期間をミリ秒単位で指定します。Amazon S3 の結果整合性を担保するために、直前の maxBand ミリ秒以内の変更タイムスタンプが付いたファイルが、特に JobBookmarks の使用時に追跡されます。ほとんどのユーザーはこのオプションを設定する必要はありません。デフォルトは 900,000 ミリ秒 (15 分) です。
-
MaxFilesInBand– 数値 (整数)、None 以下。このオプションは、直前の maxBand 秒間に保存するファイルの最大数を指定します。この数を超えた場合、余分なファイルはスキップされ、次のジョブ実行時にのみ処理されます。
-
AdditionalOptions– S3DirectSourceAdditionalOptions オブジェクト。追加の接続オプションを指定します。
-
Separator– 必須: UTF-8 文字列 (有効な値:comma="COMMA"|ctrla="CTRLA"|pipe="PIPE"|semicolon="SEMICOLON"|tab="TAB")。区切り記号文字を指定します。デフォルトではカンマ: 『,』 ですが、他の任意の文字を指定できます。
-
Escaper– UTF-8 文字列。Custom string pattern #61 に一致。エスケープに使用する文字を指定します。このオプションは、CSV ファイルを読み取る場合にのみ使用します。デフォルト値は
noneです。有効にすると、直後の文字はそのまま使用されます。ただし、よく知られている小さいエスケープセット (\n、\r、\t、\0) を除きます。 -
QuoteChar– 必須: UTF-8 文字列 (有効な値:quote="QUOTE"|quillemet="QUILLEMET"|single_quote="SINGLE_QUOTE"|disabled="DISABLED")。引用に使用する文字を指定します。デフォルト値は二重引用符
'"'です。これに-1を設定すると、全体的に引用が無効になります。 -
Multiline– ブール。単一のレコードが複数行にまたがることができるかどうかを指定するブール値。これが発生するのは、フィールドに引用符で囲まれた改行文字がある場合などです。複数行にまたがるレコードがある場合は、このオプションを True に設定する必要があります。デフォルト値は
Falseであり、解析時によりアグレッシブなファイル分割を可能にします。 -
WithHeader– ブール。最初の行をヘッダーとして扱うかどうかを指定するブール値。デフォルト値は
Falseです。 -
WriteHeader– ブール。ヘッダーを出力に書き込むかどうかを指定するブール値。デフォルト値は
Trueです。 -
SkipFirst– ブール。最初のデータ行をスキップするかどうかを指定するブール値。デフォルト値は
Falseです。 -
OptimizePerformance– ブール。高度な SIMD CSV リーダーで、Apache Arrow ベースの列指向メモリ形式を使用するかどうかを指定するブール値。AWS Glue バージョン 3.0 でのみ使用可能
-
OutputSchemas– GlueSchema オブジェクトの配列。S3 CSV ソース用のデータスキーマを指定します。
DirectJDBCSource 構造
直接 JDBC ソース接続を指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。JDBC ソース接続の名前。
-
Database– 必須: UTF-8 文字列。Custom string pattern #61 に一致。JDBC ソース接続のデータベース。
-
Table– 必須: UTF-8 文字列。Custom string pattern #61 に一致。JDBC ソース接続のテーブル。
-
ConnectionName– 必須: UTF-8 文字列。Custom string pattern #61 に一致。JDBC ソースの接続名。
-
ConnectionType– 必須: UTF-8 文字列 (有効な値:sqlserver|mysql|oracle|postgresql|redshift)。JDBC ソースの接続タイプ。
-
RedshiftTmpDir– UTF-8 文字列。Custom string pattern #61 に一致。JDBC Redshift ソースの一時ディレクトリ。
-
OutputSchemas– GlueSchema オブジェクトの配列。直接 JDBC ソース用のデータスキーマを指定します。
S3DirectSourceAdditionalOptions 構造
Amazon S3 データストアの追加の接続オプションを指定します。
フィールド
-
BoundedSize– 数値 (long)。処理されるバイトのデータセットのターゲットサイズの上限を設定します。
-
BoundedFiles– 数値 (long)。処理されるファイルのターゲット数の上限を設定します。
-
EnableSamplePath– ブール。オプションを設定しサンプルパスを有効にします。
-
SamplePath– UTF-8 文字列。Custom string pattern #61 に一致。有効にした場合は、サンプルパスを指定します。
S3JsonSource 構造
Amazon S3 の JSON データストアを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データストアの名前。
-
Paths– 必須: UTF-8 文字列の配列。読み取りのソースとなる Amazon S3 パスのリスト。
-
CompressionType– UTF-8 文字列 (有効な値:gzip="GZIP"|bzip2="BZIP2")。データの圧縮方法を指定します。データに標準のファイル拡張子が付いている場合、このオプションは一般的に不要です。指定できる値は
"gzip"および"bzip"です。 -
Exclusions– UTF-8 文字列の配列。除外する Unix スタイルの glob パターンの JSON リストを含む文字列。例えば、"[\"**.pdf\"]" はすべての PDF ファイルを除外します。
-
GroupSize– UTF-8 文字列。Custom string pattern #61 に一致。ターゲットグループのサイズ (バイト単位)。デフォルトは、入力データのサイズとクラスターのサイズに基づいて計算されます。入力ファイルが 50,000 個未満の場合、このオプションを有効にするには、
"groupFiles"を"inPartition"に設定する必要があります。 -
GroupFiles– UTF-8 文字列。Custom string pattern #61 に一致。入力ファイルが 50,000 個を超える場合、デフォルトでファイルのグループ化が有効化されます。入力ファイルが 50,000 個未満の場合にグループ化を有効化するには、このパラメータに『inPartition』を設定します。入力ファイルが 50,000 個を超える場合に、グループ化を無効にするには、このパラメータを
"none"に設定します。 -
Recurse– ブール。true に設定した場合は、指定したパスの下にあるすべてのサブディレクトリ内のファイルを再帰的に読み取ります。
-
MaxBand– 数値 (整数)、None 以下。このオプションでは、s3 リストの一貫性が認められるまでの期間をミリ秒単位で指定します。Amazon S3 の結果整合性を担保するために、直前の maxBand ミリ秒以内の変更タイムスタンプが付いたファイルが、特に JobBookmarks の使用時に追跡されます。ほとんどのユーザーはこのオプションを設定する必要はありません。デフォルトは 900,000 ミリ秒 (15 分) です。
-
MaxFilesInBand– 数値 (整数)、None 以下。このオプションは、直前の maxBand 秒間に保存するファイルの最大数を指定します。この数を超えた場合、余分なファイルはスキップされ、次のジョブ実行時にのみ処理されます。
-
AdditionalOptions– S3DirectSourceAdditionalOptions オブジェクト。追加の接続オプションを指定します。
-
JsonPath– UTF-8 文字列。Custom string pattern #61 に一致。JSON データを定義する JsonPath 文字列。
-
Multiline– ブール。単一のレコードが複数行にまたがることができるかどうかを指定するブール値。これが発生するのは、フィールドに引用符で囲まれた改行文字がある場合などです。複数行にまたがるレコードがある場合は、このオプションを True に設定する必要があります。デフォルト値は
Falseであり、解析時によりアグレッシブなファイル分割を可能にします。 -
OutputSchemas– GlueSchema オブジェクトの配列。S3 JSON ソース用のデータスキーマを指定します。
S3ParquetSource 構造
Amazon S3 に保存されている Apache Parquet データストアを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データストアの名前。
-
Paths– 必須: UTF-8 文字列の配列。読み取りのソースとなる Amazon S3 パスのリスト。
-
CompressionType– UTF-8 文字列 (有効な値:snappy="SNAPPY"|lzo="LZO"|gzip="GZIP"|brotli="BROTLI"|lz4="LZ4"|uncompressed="UNCOMPRESSED"|none="NONE")。データの圧縮方法を指定します。データに標準のファイル拡張子が付いている場合、このオプションは一般的に不要です。指定できる値は
"gzip"および"bzip"です。 -
Exclusions– UTF-8 文字列の配列。除外する Unix スタイルの glob パターンの JSON リストを含む文字列。例えば、"[\"**.pdf\"]" はすべての PDF ファイルを除外します。
-
GroupSize– UTF-8 文字列。Custom string pattern #61 に一致。ターゲットグループのサイズ (バイト単位)。デフォルトは、入力データのサイズとクラスターのサイズに基づいて計算されます。入力ファイルが 50,000 個未満の場合、このオプションを有効にするには、
"groupFiles"を"inPartition"に設定する必要があります。 -
GroupFiles– UTF-8 文字列。Custom string pattern #61 に一致。入力ファイルが 50,000 個を超える場合、デフォルトでファイルのグループ化が有効化されます。入力ファイルが 50,000 個未満の場合にグループ化を有効化するには、このパラメータに『inPartition』を設定します。入力ファイルが 50,000 個を超える場合に、グループ化を無効にするには、このパラメータを
"none"に設定します。 -
Recurse– ブール。true に設定した場合は、指定したパスの下にあるすべてのサブディレクトリ内のファイルを再帰的に読み取ります。
-
MaxBand– 数値 (整数)、None 以下。このオプションでは、s3 リストの一貫性が認められるまでの期間をミリ秒単位で指定します。Amazon S3 の結果整合性を担保するために、直前の maxBand ミリ秒以内の変更タイムスタンプが付いたファイルが、特に JobBookmarks の使用時に追跡されます。ほとんどのユーザーはこのオプションを設定する必要はありません。デフォルトは 900,000 ミリ秒 (15 分) です。
-
MaxFilesInBand– 数値 (整数)、None 以下。このオプションは、直前の maxBand 秒間に保存するファイルの最大数を指定します。この数を超えた場合、余分なファイルはスキップされ、次のジョブ実行時にのみ処理されます。
-
AdditionalOptions– S3DirectSourceAdditionalOptions オブジェクト。追加の接続オプションを指定します。
-
OutputSchemas– GlueSchema オブジェクトの配列。S3 Parquet ソース用のデータスキーマを指定します。
S3DeltaSource 構造
Amazon S3 内に保存されている Delta Lake データソースを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。Delta Lake ソースの名前。
-
Paths– 必須: UTF-8 文字列の配列。読み取りのソースとなる Amazon S3 パスのリスト。
-
AdditionalDeltaOptions– キーバリューペアのマップ配列。各キーは、Custom string pattern #61 に適合する UTF-8 文字列です。
各値は、Custom string pattern #61 に適合する UTF-8 文字列です。
追加の接続オプションを指定します。
-
AdditionalOptions– S3DirectSourceAdditionalOptions オブジェクト。コネクタの追加オプションを指定します。
-
OutputSchemas– GlueSchema オブジェクトの配列。Delta Lake ソース用のデータスキーマを指定します。
S3CatalogDeltaSource 構造
AWS Glue データカタログ内に登録されている Delta Lake データソースを指定します。データソースは Amazon S3 に保存する必要があります。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。Delta Lake データソースの名前。
-
Database– 必須: UTF-8 文字列。Custom string pattern #61 に一致。読み取りデータベースの名前。
-
Table– 必須: UTF-8 文字列。Custom string pattern #61 に一致。読み取りデータベースのテーブルの名前。
-
AdditionalDeltaOptions– キーバリューペアのマップ配列。各キーは、Custom string pattern #61 に適合する UTF-8 文字列です。
各値は、Custom string pattern #61 に適合する UTF-8 文字列です。
追加の接続オプションを指定します。
-
OutputSchemas– GlueSchema オブジェクトの配列。Delta Lake ソース用のデータスキーマを指定します。
CatalogDeltaSource 構造
AWS Glue データカタログ内に登録されている Delta Lake データソースを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。Delta Lake データソースの名前。
-
Database– 必須: UTF-8 文字列。Custom string pattern #61 に一致。読み取りデータベースの名前。
-
Table– 必須: UTF-8 文字列。Custom string pattern #61 に一致。読み取りデータベースのテーブルの名前。
-
AdditionalDeltaOptions– キーバリューペアのマップ配列。各キーは、Custom string pattern #61 に適合する UTF-8 文字列です。
各値は、Custom string pattern #61 に適合する UTF-8 文字列です。
追加の接続オプションを指定します。
-
OutputSchemas– GlueSchema オブジェクトの配列。Delta Lake ソース用のデータスキーマを指定します。
S3HudiSource 構造
Amazon S3 内に保存されている Hudi データソースを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。Hudi ソースの名前。
-
Paths– 必須: UTF-8 文字列の配列。読み取りのソースとなる Amazon S3 パスのリスト。
-
AdditionalHudiOptions– キーバリューペアのマップ配列。各キーは、Custom string pattern #61 に適合する UTF-8 文字列です。
各値は、Custom string pattern #61 に適合する UTF-8 文字列です。
追加の接続オプションを指定します。
-
AdditionalOptions– S3DirectSourceAdditionalOptions オブジェクト。コネクタの追加オプションを指定します。
-
OutputSchemas– GlueSchema オブジェクトの配列。Hudi ソース用のデータスキーマを指定します。
S3CatalogHudiSource 構造
AWS Glue データカタログ内に登録されている Hudi データソースを指定します。Hudi データソースは Amazon S3 に保存する必要があります。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。Hudi データソースの名前。
-
Database– 必須: UTF-8 文字列。Custom string pattern #61 に一致。読み取りデータベースの名前。
-
Table– 必須: UTF-8 文字列。Custom string pattern #61 に一致。読み取りデータベースのテーブルの名前。
-
AdditionalHudiOptions– キーバリューペアのマップ配列。各キーは、Custom string pattern #61 に適合する UTF-8 文字列です。
各値は、Custom string pattern #61 に適合する UTF-8 文字列です。
追加の接続オプションを指定します。
-
OutputSchemas– GlueSchema オブジェクトの配列。Hudi ソース用のデータスキーマを指定します。
S3ExcelSource の構造
S3 Excel データソースを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。S3 Excel データソースの名前。
-
Paths– 必須: UTF-8 文字列の配列。Excel ファイルがある S3 パス。
-
CompressionType– UTF-8 文字列 (有効な値:snappy="SNAPPY"|lzo="LZO"|gzip="GZIP"|brotli="BROTLI"|lz4="LZ4"|uncompressed="UNCOMPRESSED"|none="NONE")。Excel ファイルに使用される圧縮形式。
-
Exclusions– UTF-8 文字列の配列。特定のファイルまたはパスが処理されないように除外するパターン。
-
GroupSize– UTF-8 文字列。Custom string pattern #61 に一致。バッチ処理するファイルグループのサイズを定義します。
-
GroupFiles– UTF-8 文字列。Custom string pattern #61 に一致。処理するためにファイルをグループ化する方法を指定します。
-
Recurse– ブール。サブディレクトリを再帰的に処理するかどうか示します。
-
MaxBand– 数値 (整数)、None 以下。使用する処理バンドの最大数。
-
MaxFilesInBand– 数値 (整数)、None 以下。バンドごとに処理するファイルの最大数。
-
AdditionalOptions– S3DirectSourceAdditionalOptions オブジェクト。S3 の直接ソース処理の追加設定オプション。
-
NumberRows– 数値 (long)。各 Excel ファイルで処理する行数。
-
SkipFooter– 数値 (整数)、None 以下。各 Excel ファイルの最後にスキップする行数。
-
OutputSchemas– GlueSchema オブジェクトの配列。処理されたデータに適用する AWS Glue スキーマ。
CatalogHudiSource 構造
AWS Glue データカタログ内に登録されている Hudi データソースを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。Hudi データソースの名前。
-
Database– 必須: UTF-8 文字列。Custom string pattern #61 に一致。読み取りデータベースの名前。
-
Table– 必須: UTF-8 文字列。Custom string pattern #61 に一致。読み取りデータベースのテーブルの名前。
-
AdditionalHudiOptions– キーバリューペアのマップ配列。各キーは、Custom string pattern #61 に適合する UTF-8 文字列です。
各値は、Custom string pattern #61 に適合する UTF-8 文字列です。
追加の接続オプションを指定します。
-
OutputSchemas– GlueSchema オブジェクトの配列。Hudi ソース用のデータスキーマを指定します。
DynamoDBCatalogSource 構造
AWS Glue データカタログ内の DynamoDB データソースを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データソースの名前。
-
Database– 必須: UTF-8 文字列。Custom string pattern #61 に一致。読み取りデータベースの名前。
-
Table– 必須: UTF-8 文字列。Custom string pattern #61 に一致。読み取りデータベースのテーブルの名前。
-
PitrEnabled– ブール。ポイントインタイムリカバリ (PITR) が DynamoDB テーブルに対して有効になっているかどうかを指定します。
trueに設定すると、特定の時点からの読み取りを許可します。デフォルト値はfalseです。 -
AdditionalOptions– DDBELTCatalogAdditionalOptions オブジェクト。DynamoDB データソースの追加の接続オプションを指定します。
RelationalCatalogSource 構造
AWS Glue データカタログ内の、リレーショナルデータベースデータソースを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データソースの名前。
-
Database– 必須: UTF-8 文字列。Custom string pattern #61 に一致。読み取りデータベースの名前。
-
Table– 必須: UTF-8 文字列。Custom string pattern #61 に一致。読み取りデータベースのテーブルの名前。
JDBCConnectorTarget 構造
Apache Parquet 列指向ストレージで Amazon S3 に書き込むデータターゲットを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データターゲットの名前。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の文字列。データターゲットへの入力であるノード。
-
ConnectionName– 必須: UTF-8 文字列。Custom string pattern #61 に一致。コネクタに関連付けられている接続の名前。
-
ConnectionTable– 必須: UTF-8 文字列。Custom string pattern #61 に一致。データターゲットのテーブルの名前。
-
ConnectorName– 必須: UTF-8 文字列。Custom string pattern #61 に一致。使用されるコネクタの名前。
-
ConnectionType– 必須: UTF-8 文字列。Custom string pattern #61 に一致。JDBC データターゲットへの接続を指定する marketplace.jdbc や custom.jdbc などの接続のタイプ。
-
AdditionalOptions– キーバリューペアのマップ配列。各キーは、Custom string pattern #61 に適合する UTF-8 文字列です。
各値は、Custom string pattern #61 に適合する UTF-8 文字列です。
コネクタの追加接続オプション。
-
OutputSchemas– GlueSchema オブジェクトの配列。JDBC ターゲット用のデータスキーマを指定します。
SparkConnectorTerg 構造
Apache Spark コネクタを使用するターゲットを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データターゲットの名前。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の文字列。データターゲットへの入力であるノード。
-
ConnectionName– 必須: UTF-8 文字列。Custom string pattern #61 に一致。Apache Spark コネクタの接続の名前。
-
ConnectorName– 必須: UTF-8 文字列。Custom string pattern #61 に一致。Apache Spark コネクタの名前。
-
ConnectionType– 必須: UTF-8 文字列。Custom string pattern #61 に一致。marketplace.spark や custom.spark などのApache Spark データストアへの接続を指定する接続のタイプ。
-
AdditionalOptions– キーバリューペアのマップ配列。各キーは、Custom string pattern #61 に適合する UTF-8 文字列です。
各値は、Custom string pattern #61 に適合する UTF-8 文字列です。
コネクタの追加接続オプション。
-
OutputSchemas– GlueSchema オブジェクトの配列。カスタム Spark ターゲット用のデータスキーマを指定します。
BasicCatalogTerg 構造
AWS Glue データカタログテーブルを使用するターゲットを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データターゲットの名前。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の文字列。データターゲットへの入力であるノード。
-
PartitionKeys– UTF-8 文字列の配列。特定のキーまたはキーのセットに基づいて、複数のパーティションまたはシャードにデータを分散するために使用されるパーティションキー。
-
Database– 必須: UTF-8 文字列。Custom string pattern #61 に一致。ターゲットとして使用するテーブルを含むデータベース。このデータベースは、データカタログに既に存在している必要があります。
-
Table– 必須: UTF-8 文字列。Custom string pattern #61 に一致。出力データのスキーマを定義するテーブル。このテーブルは、 のデータカタログに既に存在している必要があります。
MySQLCatalogTarget 構造
MySQL を使用するターゲットを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データターゲットの名前。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の文字列。データターゲットへの入力であるノード。
-
Database– 必須: UTF-8 文字列。Custom string pattern #61 に一致。書き込むデータベースの名前。
-
Table– 必須: UTF-8 文字列。Custom string pattern #61 に一致。書き込むデータベーステーブルの名前。
PostgreSQLCatalogTarget 構造
Postgres SQL を使用するターゲットを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データターゲットの名前。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の文字列。データターゲットへの入力であるノード。
-
Database– 必須: UTF-8 文字列。Custom string pattern #61 に一致。書き込むデータベースの名前。
-
Table– 必須: UTF-8 文字列。Custom string pattern #61 に一致。書き込むデータベーステーブルの名前。
OracleSQLCatalogTarget 構造
Oracle SQL を使用するターゲットを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データターゲットの名前。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の文字列。データターゲットへの入力であるノード。
-
Database– 必須: UTF-8 文字列。Custom string pattern #61 に一致。書き込むデータベースの名前。
-
Table– 必須: UTF-8 文字列。Custom string pattern #61 に一致。書き込むデータベーステーブルの名前。
MicrosoftSQLServerCatalogTarget 構造
Microsoft SQL を使用するターゲットを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データターゲットの名前。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の文字列。データターゲットへの入力であるノード。
-
Database– 必須: UTF-8 文字列。Custom string pattern #61 に一致。書き込むデータベースの名前。
-
Table– 必須: UTF-8 文字列。Custom string pattern #61 に一致。書き込むデータベーステーブルの名前。
RedShiftTarget 構造
Amazon Redshift を使用するターゲットを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データターゲットの名前。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の文字列。データターゲットへの入力であるノード。
-
Database– 必須: UTF-8 文字列。Custom string pattern #61 に一致。書き込むデータベースの名前。
-
Table– 必須: UTF-8 文字列。Custom string pattern #61 に一致。書き込むデータベーステーブルの名前。
-
RedshiftTmpDir– UTF-8 文字列。Custom string pattern #61 に一致。データベースからコピーするときに一時データをステージングできる Amazon S3 パス。
-
TmpDirIAMRole– UTF-8 文字列。Custom string pattern #61 に一致。アクセス許可を持つ IAM ロール。
-
UpsertRedshiftOptions– UpsertRedshiftTargetOptions オブジェクト。Redshift ターゲットに書き込む際の upsert 処理を設定するためのオプションセット。
AmazonRedshiftTarget 構造
Amazon Redshift ターゲットを指定します。
フィールド
-
Name– UTF-8 文字列。Custom string pattern #63 に一致。Amazon Redshift ターゲットの名前。
-
Data– AmazonRedshiftNodeData オブジェクト。Amazon Redshift ターゲットノードのデータを指定します。
-
Inputs– UTF-8 文字列の配列、1 個の文字列。データターゲットへの入力であるノード。
UpsertRedshiftTargetOptions 構造
Redshift ターゲットに書き込む際の upsert 処理を設定するオプション。
フィールド
-
TableLocation– UTF-8 文字列。Custom string pattern #61 に一致。Redshift テーブルの物理的な場所。
-
ConnectionName– UTF-8 文字列。Custom string pattern #61 に一致。Redshift に書き込むために使用する接続名。
-
UpsertKeys– UTF-8 文字列の配列。更新または挿入のどちらを実行するかを決定するためのキー。
S3CatalogTarget 構造
AWS Glue データカタログを使用して Amazon S3 に書き込むデータターゲットを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データターゲットの名前。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の文字列。データターゲットへの入力であるノード。
-
PartitionKeys– UTF-8 文字列の配列。一連のキーを使用してネイティブパーティショニングを指定します。
-
Table– 必須: UTF-8 文字列。Custom string pattern #61 に一致。書き込むデータベーステーブルの名前。
-
Database– 必須: UTF-8 文字列。Custom string pattern #61 に一致。書き込むデータベースの名前。
-
SchemaChangePolicy– CatalogSchemaChangePolicy オブジェクト。クローラの更新の動作を指定するポリシー。
-
AutoDataQuality– AutoDataQuality オブジェクト。S3 カタログターゲットのデータ品質評価を自動的に有効にするかどうかを指定します。
trueに設定すると、書き込み操作中にデータ品質チェックが自動的に実行されます。
S3GlueParquetTarget 構造
Apache Parquet 列指向ストレージで Amazon S3 に書き込むデータターゲットを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データターゲットの名前。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の文字列。データターゲットへの入力であるノード。
-
PartitionKeys– UTF-8 文字列の配列。一連のキーを使用してネイティブパーティショニングを指定します。
-
Path– 必須: UTF-8 文字列。Custom string pattern #61 に一致。書き込む単一の Amazon S3 パス。
-
Compression– UTF-8 文字列 (有効な値:snappy="SNAPPY"|lzo="LZO"|gzip="GZIP"|brotli="BROTLI"|lz4="LZ4"|uncompressed="UNCOMPRESSED"|none="NONE")。データの圧縮方法を指定します。データに標準のファイル拡張子が付いている場合、このオプションは一般的に不要です。指定できる値は
"gzip"および"bzip"です。 -
NumberTargetPartitions– UTF–8 文字列。AWS Glue を使用して Amazon S3 に書き込むときに Parquet ファイルのターゲットパーティション数を指定します。
-
SchemaChangePolicy– DirectSchemaChangePolicy オブジェクト。クローラの更新の動作を指定するポリシー。
-
AutoDataQuality– AutoDataQuality オブジェクト。S3 AWS Glue Parquet ターゲットのデータ品質評価を自動的に有効にするかどうかを指定します。
trueに設定すると、書き込み操作中にデータ品質チェックが自動的に実行されます。
CatalogSchemaChangePolicy 構造
クローラの更新の動作を指定するポリシー。
フィールド
-
EnableUpdateCatalog– ブール。クローラが変更されたスキーマを検出したとき、指定の更新動作を使用するかどうか。
-
UpdateBehavior– UTF-8 文字列 (有効な値:UPDATE_IN_DATABASE|LOG)。クローラーが変更されたスキーマを検出したときの更新動作。
S3directTarget 構造
Amazon S3 に書き込むデータターゲットを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データターゲットの名前。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の文字列。データターゲットへの入力であるノード。
-
PartitionKeys– UTF-8 文字列の配列。一連のキーを使用してネイティブパーティショニングを指定します。
-
Path– 必須: UTF-8 文字列。Custom string pattern #61 に一致。書き込む単一の Amazon S3 パス。
-
Compression– UTF-8 文字列。Custom string pattern #61 に一致。データの圧縮方法を指定します。データに標準のファイル拡張子が付いている場合、このオプションは一般的に不要です。指定できる値は
"gzip"および"bzip"です。 -
NumberTargetPartitions– UTF–8 文字列。Amazon S3 に直接データを書き込むときのターゲットパーティション数を指定します。
-
Format– 必須: UTF-8 文字列 (有効な値:json="JSON"|csv="CSV"|avro="AVRO"|orc="ORC"|parquet="PARQUET"|hudi="HUDI"|delta="DELTA"|iceberg="ICEBERG"|hyper="HYPER"|xml="XML")。ターゲットのデータ出力形式を指定します。
-
SchemaChangePolicy– DirectSchemaChangePolicy オブジェクト。クローラの更新の動作を指定するポリシー。
-
AutoDataQuality– AutoDataQuality オブジェクト。S3 直接ターゲットのデータ品質評価を自動的に有効にするかどうかを指定します。
trueに設定すると、書き込み操作中にデータ品質チェックが自動的に実行されます。 -
OutputSchemas– GlueSchema オブジェクトの配列。S3 直接ターゲット用のデータスキーマを指定します。
S3HudiCatalogTarget 構造
AWS Glue データカタログ内の Hudi データソースに書き込むターゲットを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データターゲットの名前。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の文字列。データターゲットへの入力であるノード。
-
PartitionKeys– UTF-8 文字列の配列。一連のキーを使用してネイティブパーティショニングを指定します。
-
Table– 必須: UTF-8 文字列。Custom string pattern #61 に一致。書き込むデータベーステーブルの名前。
-
Database– 必須: UTF-8 文字列。Custom string pattern #61 に一致。書き込むデータベースの名前。
-
AdditionalOptions– 必須: キーバリューペアのマップ配列。各キーは、Custom string pattern #61 に適合する UTF-8 文字列です。
各値は、Custom string pattern #61 に適合する UTF-8 文字列です。
コネクタの追加接続オプションを指定します。
-
SchemaChangePolicy– CatalogSchemaChangePolicy オブジェクト。クローラの更新の動作を指定するポリシー。
-
AutoDataQuality– AutoDataQuality オブジェクト。S3 Hudi カタログターゲットのデータ品質評価を自動的に有効にするかどうかを指定します。
trueに設定すると、書き込み操作中にデータ品質チェックが自動的に実行されます。 -
OutputSchemas– GlueSchema オブジェクトの配列。S3 Hudi カタログターゲット用のデータスキーマを指定します。
S3HudiDirectTarget 構造
Amazon S3 内の Hudi データソースに書き込むターゲットを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データターゲットの名前。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の文字列。データターゲットへの入力であるノード。
-
Path– 必須: UTF-8 文字列。Custom string pattern #61 に一致。書き込み先の Hudi データソースの Amazon S3 パス。
-
Compression– 必須: UTF-8 文字列 (有効な値:gzip="GZIP"|lzo="LZO"|uncompressed="UNCOMPRESSED"|snappy="SNAPPY")。データの圧縮方法を指定します。データに標準のファイル拡張子が付いている場合、このオプションは一般的に不要です。指定できる値は
"gzip"および"bzip"です。 -
NumberTargetPartitions– UTF–8 文字列。Amazon S3 全体で Hudi データセットファイルを配布するためのターゲットパーティション数を指定します。
-
PartitionKeys– UTF-8 文字列の配列。一連のキーを使用してネイティブパーティショニングを指定します。
-
Format– 必須: UTF-8 文字列 (有効な値:json="JSON"|csv="CSV"|avro="AVRO"|orc="ORC"|parquet="PARQUET"|hudi="HUDI"|delta="DELTA"|iceberg="ICEBERG"|hyper="HYPER"|xml="XML")。ターゲットのデータ出力形式を指定します。
-
AdditionalOptions– 必須: キーバリューペアのマップ配列。各キーは、Custom string pattern #61 に適合する UTF-8 文字列です。
各値は、Custom string pattern #61 に適合する UTF-8 文字列です。
コネクタの追加接続オプションを指定します。
-
SchemaChangePolicy– DirectSchemaChangePolicy オブジェクト。クローラの更新の動作を指定するポリシー。
-
AutoDataQuality– AutoDataQuality オブジェクト。S3 Hudi 直接ターゲットのデータ品質評価を自動的に有効にするかどうかを指定します。
trueに設定すると、書き込み操作中にデータ品質チェックが自動的に実行されます。
S3DeltaCatalogTarget 構造
AWS Glue データカタログ内の Delta Lake データソースに書き込むターゲットを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データターゲットの名前。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の文字列。データターゲットへの入力であるノード。
-
PartitionKeys– UTF-8 文字列の配列。一連のキーを使用してネイティブパーティショニングを指定します。
-
Table– 必須: UTF-8 文字列。Custom string pattern #61 に一致。書き込むデータベーステーブルの名前。
-
Database– 必須: UTF-8 文字列。Custom string pattern #61 に一致。書き込むデータベースの名前。
-
AdditionalOptions– キーバリューペアのマップ配列。各キーは、Custom string pattern #61 に適合する UTF-8 文字列です。
各値は、Custom string pattern #61 に適合する UTF-8 文字列です。
コネクタの追加接続オプションを指定します。
-
SchemaChangePolicy– CatalogSchemaChangePolicy オブジェクト。クローラの更新の動作を指定するポリシー。
-
AutoDataQuality– AutoDataQuality オブジェクト。S3 Delta カタログターゲットのデータ品質評価を自動的に有効にするかどうかを指定します。
trueに設定すると、書き込み操作中にデータ品質チェックが自動的に実行されます。 -
OutputSchemas– GlueSchema オブジェクトの配列。S3 Delta カタログターゲット用のデータスキーマを指定します。
S3DeltaDirectTarget 構造
Amazon S3 内の Delta Lake データソースに書き込むターゲットを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データターゲットの名前。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の文字列。データターゲットへの入力であるノード。
-
PartitionKeys– UTF-8 文字列の配列。一連のキーを使用してネイティブパーティショニングを指定します。
-
Path– 必須: UTF-8 文字列。Custom string pattern #61 に一致。書き込み先の Delta Lake データソースの Amazon S3 パス。
-
Compression– 必須: UTF-8 文字列 (有効な値:uncompressed="UNCOMPRESSED"|snappy="SNAPPY")。データの圧縮方法を指定します。データに標準のファイル拡張子が付いている場合、このオプションは一般的に不要です。指定できる値は
"gzip"および"bzip"です。 -
NumberTargetPartitions– UTF–8 文字列。Amazon S3 全体に Delta Lake データセットファイルを配布するターゲットパーティション数を指定します。
-
Format– 必須: UTF-8 文字列 (有効な値:json="JSON"|csv="CSV"|avro="AVRO"|orc="ORC"|parquet="PARQUET"|hudi="HUDI"|delta="DELTA"|iceberg="ICEBERG"|hyper="HYPER"|xml="XML")。ターゲットのデータ出力形式を指定します。
-
AdditionalOptions– キーバリューペアのマップ配列。各キーは、Custom string pattern #61 に適合する UTF-8 文字列です。
各値は、Custom string pattern #61 に適合する UTF-8 文字列です。
コネクタの追加接続オプションを指定します。
-
SchemaChangePolicy– DirectSchemaChangePolicy オブジェクト。クローラの更新の動作を指定するポリシー。
-
AutoDataQuality– AutoDataQuality オブジェクト。S3 Delta 直接ターゲットのデータ品質評価を自動的に有効にするかどうかを指定します。
trueに設定すると、書き込み操作中にデータ品質チェックが自動的に実行されます。
S3HyperDirectTarget 構造
Amazon S3 に書き込む HyperDirect データターゲットを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。HyperDirect ターゲットノードの一意の識別子。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の文字列。HyperDirect ターゲットの入力ソースを指定します。
-
Format– UTF-8 文字列 (有効な値:json="JSON"|csv="CSV"|avro="AVRO"|orc="ORC"|parquet="PARQUET"|hudi="HUDI"|delta="DELTA"|iceberg="ICEBERG"|hyper="HYPER"|xml="XML")。HyperDirect ターゲットのデータ出力形式を指定します。
-
PartitionKeys– UTF-8 文字列の配列。出力データのパーティショニング戦略を定義します。
-
Path– 必須: UTF-8 文字列。Custom string pattern #61 に一致。出力データが書き込まれる S3 露kーション。
-
Compression– UTF-8 文字列 (有効な値:uncompressed="UNCOMPRESSED")。出力データに適用する圧縮タイプ。
-
SchemaChangePolicy– DirectSchemaChangePolicy オブジェクト。書き込みオペレーション中にスキーマの変更が処理される方法を定義します。
-
AutoDataQuality– AutoDataQuality オブジェクト。S3 Hyper ダイレクトターゲットのデータ品質評価を自動的に有効にするかどうかを指定します。
trueに設定すると、書き込み操作中にデータ品質チェックが自動的に実行されます。 -
OutputSchemas– GlueSchema オブジェクトの配列。S3 Hyper 直接ターゲット用のデータスキーマを指定します。
S3IcebergDirectTarget 構造
Amazon S3 の Iceberg データソースに書き込むターゲットを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データパイプラインの Iceberg ターゲットノードに一意の識別子を指定します。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の文字列。この Iceberg ターゲットにデータを提供する 1 つの入力ソースを定義します。
-
PartitionKeys– UTF-8 文字列の配列。S3 の Iceberg テーブルデータをパーティショニングするために使用される列を指定します。
-
Path– 必須: UTF-8 文字列。Custom string pattern #61 に一致。Iceberg テーブルデータが保存される S3 ロケーションを定義します。
-
Format– 必須: UTF-8 文字列 (有効な値:json="JSON"|csv="CSV"|avro="AVRO"|orc="ORC"|parquet="PARQUET"|hudi="HUDI"|delta="DELTA"|iceberg="ICEBERG"|hyper="HYPER"|xml="XML")。Iceberg テーブルデータの保存に使用されるファイル形式を指定します (Parquet や ORC など)。
-
AdditionalOptions– キーバリューペアのマップ配列。各キーは、Custom string pattern #61 に適合する UTF-8 文字列です。
各値は、Custom string pattern #61 に適合する UTF-8 文字列です。
Iceberg テーブルの動作をカスタマイズするための追加の設定オプションを提供します。
-
SchemaChangePolicy– DirectSchemaChangePolicy オブジェクト。Iceberg テーブルにデータを書き込むときにスキーマ変更を処理する方法を定義します。
-
Compression– 必須: UTF-8 文字列 (有効な値:gzip="GZIP"|lzo="LZO"|uncompressed="UNCOMPRESSED"|snappy="SNAPPY")。S3 の Iceberg テーブルファイルに使用される圧縮コーデックを指定します。
-
NumberTargetPartitions– UTF–8 文字列。S3 全体 に Iceberg テーブルファイルを配布するターゲットパーティション数を設定します。
-
OutputSchemas– GlueSchema オブジェクトの配列。S3 Iceberg 直接ターゲットのデータスキーマを指定します。
DirectSchemaChangePolicy 構造
クローラの更新の動作を指定するポリシー。
フィールド
-
EnableUpdateCatalog– ブール。クローラが変更されたスキーマを検出したとき、指定の更新動作を使用するかどうか。
-
UpdateBehavior– UTF-8 文字列 (有効な値:UPDATE_IN_DATABASE|LOG)。クローラーが変更されたスキーマを検出したときの更新動作。
-
Table– UTF-8 文字列。Custom string pattern #61 に一致。スキーマ変更ポリシーが適用されるデータベース内のテーブルを指定します。
-
Database– UTF-8 文字列、「Custom string pattern #61」に一致。スキーマ変更ポリシーを適用するデータベースを指定します。
ApplyMapping 構造
データソースのマップデータプロパティキーを、データターゲットのデータプロパティキーに変換指定します。キーの名前を変更したり、データタイプを変更したり、データセットから削除するキーを選択できます。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。変換ノードの名前。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の文字列。ノード名で識別されるデータ入力。
-
Mapping– 必須: Mapping オブジェクトの配列。データソースのデータプロパティキーを、データターゲットのデータプロパティキーにマッピングします。
Mapping 構造
データプロパティキーのマッピングを指定します。
フィールド
-
ToKey– UTF-8 文字列。Custom string pattern #61 に一致。マッピングを適用した後に、列名を何にするのかを示します。
FromPathと同じでも構いません。 -
FromPath– UTF-8 文字列の配列。変更するテーブルまたは列。
-
FromType– UTF-8 文字列。Custom string pattern #61 に一致。修正されるデータのタイプ。
-
ToType– UTF-8 文字列。Custom string pattern #61 に一致。データの修正先のデータタイプ。
-
Dropped– ブール。true の場合、列は削除されます。
-
Children– Mapping オブジェクトの配列。ネストされたデータ構造にのみ適用されます。親構造を変更し、その子構造を変更する場合は、このデータ構造に記入できます。それはまた
Mappingであり、FromPathはこの構造から親のFromPathブラスFromPathです。子部分に、次のような構造があるとします。
{ "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }次のような
Mappingを指定します。{ "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }
SelectFields 構造
保持するデータプロパティキーを選択するトランスフォームを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。変換ノードの名前。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の文字列。ノード名で識別されるデータ入力。
-
Paths– 必須: UTF-8 文字列の配列。データ構造内の変数への JSON パス。
DropFields 構造
削除するデータプロパティキーを選択する変換を指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。変換ノードの名前。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の文字列。ノード名で識別されるデータ入力。
-
Paths– 必須: UTF-8 文字列の配列。データ構造内の変数への JSON パス。
RenameField 構造
1 つのデータプロパティキーの名前を変更する変換を指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。変換ノードの名前。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の文字列。ノード名で識別されるデータ入力。
-
SourcePath– 必須: UTF-8 文字列の配列。ソースデータのデータ構造内の変数への JSON パス。
-
TargetPath– 必須: UTF-8 文字列の配列。ターゲットデータのデータ構造内の変数への JSON パス。
スピゴット構造
Amazon S3 バケットにデータのサンプルを書き込むための変換を指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。変換ノードの名前。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の文字列。ノード名で識別されるデータ入力。
-
Path– 必須: UTF-8 文字列。Custom string pattern #61 に一致。Amazon S3 パスでは、データセットから Amazon S3 バケットの JSON ファイルにレコードのサブセットが書き出されます。
-
Topk– 数値 (integer)。100 以下。データセットの先頭から書き込むレコードの数を指定します。
-
Prob– 数値 (double)。1 以下。特定のレコードを選ぶ確率 (最大値が 1 の 10 進値)。値 1 は、データセットから読み込まれた各行をサンプル出力に含めることを示します。
Join 構造
指定したデータプロパティキーの比較フレーズを使用して、2 つのデータセットを 1 つに結合する変換を指定します。結合タイプは、内部結合、外部結合、左結合、右結合、左半結合、左反結合を使用できます。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。変換ノードの名前。
-
Inputs– 必須: UTF-8 文字列の配列。2 個の文字列。ノード名で識別されるデータ入力。
-
JoinType– 必須: UTF-8 文字列 (有効な値:equijoin="EQUIJOIN"|left="LEFT"|right="RIGHT"|outer="OUTER"|leftsemi="LEFT_SEMI"|leftanti="LEFT_ANTI")。データセットで実行する結合の種類を指定します。
-
Columns– 必須: JoinColumn オブジェクトの配列。2 個の構造。結合する 2 つの列のリスト。
JoinColumn 構造
結合する列を指定します。
フィールド
-
From– 必須: UTF-8 文字列。Custom string pattern #61 に一致。結合する列。
-
Keys– 必須: UTF-8 文字列の配列。結合される列のキー。
SplitFields 構造
データプロパティキーを 2 つの DynamicFrames に分割する変換を指定します。出力は DynamicFrames のコレクションです。一方は選択したデータプロパティキー、他方は残っている方のデータプロパティキーを持ちます。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。変換ノードの名前。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の文字列。ノード名で識別されるデータ入力。
-
Paths– 必須: UTF-8 文字列の配列。データ構造内の変数への JSON パス。
SelectFromCollection 構造
DynamicFrame のコレクションから 1 つの DynamicFrames を選択するトランスフォームを指定します 出力は選択された DynamicFrame です。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。変換ノードの名前。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の文字列。ノード名で識別されるデータ入力。
-
Index– 必須: 数値 (整数)。None 以下。選択される DynamicFrame のインデックス。
FillMissingValues 構造
変換を使用して、データセット内に欠落値があるレコードを検索し、補完により決定する値を持つ新しいフィールドを追加します。入力データセットは、欠落値を決定する機械学習モデルのトレーニングに使用されます。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。変換ノードの名前。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の文字列。ノード名で識別されるデータ入力。
-
ImputedPath– 必須: UTF-8 文字列。Custom string pattern #61 に一致。帰属するデータセットのデータ構造内の変数への JSON パス。
-
FilledPath– UTF-8 文字列。Custom string pattern #61 に一致。データセットのデータ構造内の変数への JSON パスを入力します。
Filter 構造
フィルター条件に基づいて、データセットを 2 つに分割する変換を指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。変換ノードの名前。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の文字列。ノード名で識別されるデータ入力。
-
LogicalOperator– 必須: UTF-8 文字列 (有効な値:AND|OR)。キー値を指定値と比較して行をフィルタリングするために使用される演算子。
-
Filters– 必須: FilterExpression オブジェクトの配列。フィルタ式を指定します。
FilterExpression 構造
フィルタ表現を指定します。
フィールド
-
Operation– 必須: UTF-8 文字列 (有効な値:EQ|LT|GT|LTE|GTE|REGEX|ISNULL)。表現で実行するオペレーションの種類。
-
Negated– ブール。その表現を無効にするかどうか。
-
Values– 必須: FilterValue オブジェクトの配列。フィルタ値のリスト。
FilterValue 構造
FilterExpression の値リストにある単一のエントリを表します。
フィールド
-
Type– 必須: UTF-8 文字列 (有効な値:COLUMNEXTRACTED|CONSTANT)。フィルタ値のタイプ。
-
Value– 必須: UTF-8 文字列の配列。関連させる値。
CustomCode 構造
データ変換を実行するためにカスタムコードを使用する変換を指定します。結果には、DynamicFrames のコレクションが出力されます。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。変換ノードの名前。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の以上の文字列。ノード名で識別されるデータ入力。
-
Code– 必須: UTF-8 文字列。Custom string pattern #54 に一致。データ変換を実行するために使用されるカスタムコード。
-
ClassName– 必須: UTF-8 文字列。Custom string pattern #61 に一致。カスタムコードノードクラスに定義された名前。
-
OutputSchemas– GlueSchema オブジェクトの配列。カスタムコード変換用のデータスキーマを指定します。
SparkSQL 構造
データを変換する Spark SQL 構文を使用して、SQL クエリを入力する変換を指定します。出力は、単一の DynamicFrame です。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。変換ノードの名前。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の以上の文字列。ノード名で識別されるデータ入力。SQL クエリで使用する各入力ノードにテーブル名を関連付けることができます。選択す名前は、Spark SQL の規則を満たす必要があります。
-
SqlQuery– 必須: UTF-8 文字列。Custom string pattern #62 に一致。Spark SQL 構文を使用し、単一のデータセットを返す SQL クエリ。
-
SqlAliases– 必須: SqlAlias オブジェクトの配列。エイリアスのリスト。エイリアスを使用すると、特定の入力に対して SQL で使用する名前を指定できます。たとえば、「myDataSource」という名前のデータソースがあるとします。
Fromを MyDataSourceとして、Aliasを sqlNameとして指定する場合、SQLで次のことができます。select * from SqlNameこれにより、MyDataSource からデータを取得します。
-
OutputSchemas– GlueSchema オブジェクトの配列。SparkSQL 変換用のデータスキーマを指定します。
SqlAlias 構造
SqlAliases の値リストにある単一のエントリを表します。
フィールド
-
From– 必須: UTF-8 文字列。Custom string pattern #60 に一致。テーブルまたはテーブル内の列。
-
Alias– 必須: UTF-8 文字列。Custom string pattern #61 に一致。テーブルまたはテーブル内の列に与えられた一時的な名前。
DropNullFields 構造
列のすべての値が 'null' である場合に、データセットから列を削除する変換を指定します。デフォルトでは、AWS Glue Studio は null オブジェクトを認識しますが、空の文字列、『null』が 1 の整数、または 0 などのプレースホルダなどの文字列では、自動的に『null』として認識されません。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。変換ノードの名前。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の文字列。ノード名で識別されるデータ入力。
-
NullCheckBoxList– NullCheckboxList オブジェクト。特定の値が削除のために Null 値として認識されるかどうかを表す構造。
-
NullTextList– NullValueField オブジェクトの配列。構造 50 個以下。データセットに特有のNullプレースホルダとして使用される 0 や他の値などはカスタムの NULL 値を表す NullValueField 構造のリストを指定する構造。
Null プレースホルダの値とデータタイプの両方がデータと一致する場合にのみ、
DropNullFields変換でカスタム NULL 値を削除します。
NullCheckboxList 構造
特定の値が削除の Null 値として認識されるかどうかを表します。
フィールド
-
IsEmpty– ブール。空の文字列を Null 値と見なすことを指定します。
-
IsNullString– ブール。「null」の単語を綴る値をnull値と見なすことを指定します。
-
IsNegOne– ブール。-1 の整数値が Null 値と見なすことを指定します。
NullValueField 構造
データセットに固有の null プレースホルダとして使用される 0 や他の値などのカスタムの null 値を表します。
フィールド
-
Value– 必須: UTF-8 文字列。Custom string pattern #61 に一致。null プレースホルダの値。
-
Datatype– 必須: Datatype オブジェクト。値のデータタイプ。
Datatype 構造
値のデータタイプを表す構造。
フィールド
-
Id– 必須: UTF-8 文字列。Custom string pattern #60 に一致。値のデータタイプ。
-
Label– 必須: UTF-8 文字列。Custom string pattern #60 に一致。データタイプに割り当てられたラベル。
Merge 構造
レコードを識別するために、DynamicFrame プライマリキーに基づく DynamicFrame ステージングに結合変換を指定します。重複レコード(同じプライマリキーを持つレコード)は重複除外されません。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。変換ノードの名前。
-
Inputs– 必須: UTF-8 文字列の配列。2 個の文字列。ノード名で識別されるデータ入力。
-
Source– 必須: UTF-8 文字列。Custom string pattern #60 に一致。DynamicFrameステージングと結合するDynamicFrameソース。 -
PrimaryKeys– 必須: UTF-8 文字列の配列。ソースおよびステージング動的フレームからのレコードを照合するプライマリキーフィールドのリスト。
Union 構造
2 つ以上のデータセットの行を 1 つの結果に結合する変換を指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。変換ノードの名前。
-
Inputs– 必須: UTF-8 文字列の配列。2 個の文字列。変換用のノード ID 入力。
-
UnionType– 必須: UTF-8 文字列 (有効な値:ALL|DISTINCT)。Union 変換のタイプを示します。
データソースの全行を結果として生じる DynamicFrame に結合するため
ALLを指定します。結果として生じるユニオンでは、重複する行は削除されません。結果として生じる DynamicFrame 内の重複した行を削除するため
DISTINCTを指定します。
PIIDetection 構造
PII データを識別、削除、またはマスクする変換を指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。変換ノードの名前。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の文字列。変換用のノード ID 入力。
-
PiiType– 必須: UTF-8 文字列 (有効な値:RowAudit|RowHashing|RowMasking|RowPartialMasking|ColumnAudit|ColumnHashing|ColumnMasking)。PIIDetection 変換のタイプを示します。
-
EntityTypesToDetect– 必須: UTF-8 文字列の配列。PIIDetection 変換が PII データとして識別するエンティティのタイプを示します。
PII タイプのエンティティには以下が含まれます。PERSON_NAME、DATE、USA_SNN、EMAIL、USA_ITIN、USA_PASSPORT_NUMBER、PHONE_NUMBER、BANK_ACCOUNT、IP_ADDRESS、MAC_ADDRESS、USA_CPT_CODE、USA_HCPCS_CODE、USA_NATIONAL_DRUG_CODE、USA_MEDICARE_BENEFICIARY_IDENTIFIER、USA_HEALTH_INSURANCE_CLAIM_NUMBER、CREDIT_CARD、USA_NATIONAL_PROVIDER_IDENTIFIER、USA_DEA_NUMBER、USA_DRIVING_LICENSE
-
OutputColumnName– UTF-8 文字列。Custom string pattern #61 に一致。その行で検出されたエンティティタイプを含む、すべての出力列名を示します。
-
SampleFraction– 数値 (double)。1 以下。PII エンティティのスキャン時にサンプリングするデータの割合を示します。
-
ThresholdFraction– 数値 (double)。1 以下。PII データとして識別されるために、列内で適合する必要があるデータの割合を示します。
-
MaskValue– UTF-8 文字列、256 バイト長以下。Custom string pattern #58 に一致。検出されたエンティティを置き換える値を示します。
-
RedactText– UTF-8 文字列。Custom string pattern #61 に一致。検出された PII テキストを編集するかどうかを指定します。
trueに設定すると、PII コンテンツはマスキング文字に置き換えられます。 -
RedactChar– UTF-8 文字列。Custom string pattern #61 に一致。マスキングが有効になっている場合に、検出された PII コンテンツを置き換えるために使用される文字。デフォルトのマスキング文字は
*です。 -
MatchPattern– UTF-8 文字列。Custom string pattern #61 に一致。標準検出アルゴリズム以外の追加の PII コンテンツを識別するために使用される正規表現パターン。
-
NumLeftCharsToExclude– 数値 (整数)、None 以下。検出された PII コンテンツの左側でマスキングから除外する文字数。これにより、機密データのコンテキストを保持できます。
-
NumRightCharsToExclude– 数値 (整数)、None 以下。検出された PII コンテンツの右側でマスキングから除外する文字数。これにより、機密データのコンテキストを保持できます。
-
DetectionParameters– UTF-8 文字列。Custom string pattern #61 に一致。PII 検出動作と感度設定を構成するための追加パラメータ。
-
DetectionSensitivity– UTF-8 文字列。Custom string pattern #61 に一致。PII 検出の感度レベル。感度レベルが高いほど、より多くの潜在的な PII を検出できますが、誤検出が増える可能性があります。
Aggregate 構造
選択したフィールドによって行をグループ化し、指定された関数を使用して集計値を計算する変換を指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。変換ノードの名前。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の文字列。集約変換の入力として使用するフィールドと行を指定します。
-
Groups– 必須: UTF-8 文字列の配列。グループ化に使用するフィールドを指定します。
-
Aggs– 必須: AggregateOperation オブジェクトの配列、1~30 個の構造。指定したフィールドで実行する集計関数を指定します。
DropDuplicates 構造
繰り返しデータの行をデータセットから削除する変換を指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。変換ノードの名前。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の文字列。ノード名で識別されるデータ入力。
-
Columns– UTF-8 文字列の配列。繰り返しがある場合に、それをマージまたは削除する列の名前。
GovernedCatalogTarget 構造
AWS Glue データカタログを使用して Amazon S3 に書き込むデータターゲットを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データターゲットの名前。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の文字列。データターゲットへの入力であるノード。
-
PartitionKeys– UTF-8 文字列の配列。一連のキーを使用してネイティブパーティショニングを指定します。
-
Table– 必須: UTF-8 文字列。Custom string pattern #61 に一致。書き込むデータベーステーブルの名前。
-
Database– 必須: UTF-8 文字列。Custom string pattern #61 に一致。書き込むデータベースの名前。
-
SchemaChangePolicy– CatalogSchemaChangePolicy オブジェクト。管理されたカタログを更新する際の動作を指定するポリシー。
GovernedCatalogSource 構造
管理された AWS Glue データカタログ内のデータストアを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データストアの名前。
-
Database– 必須: UTF-8 文字列。Custom string pattern #61 に一致。読み込むデータベース。
-
Table– 必須: UTF-8 文字列。Custom string pattern #61 に一致。読み取り元のデータベーステーブル。
-
PartitionPredicate– UTF-8 文字列。Custom string pattern #61 に一致。この述語を満たすパーティションは削除されます。これらのパーティションの保存期間内のファイルは削除されません。
""を設定 – デフォルトでは空です。 -
AdditionalOptions– S3SourceAdditionalOptions オブジェクト。追加の接続オプションを指定します。
AggregateOperation 構造
集約変換で集約を実行するために必要なパラメータのセットを指定します。
フィールド
-
Column– 必須: UTF-8 文字列の配列。集計関数を適用するデータセットの列を指定します。
-
AggFunc– 必須: UTF-8 文字列 (有効な値:avg|countDistinct|count|first|last|kurtosis|max|min|skewness|stddev_samp|stddev_pop|sum|sumDistinct|var_samp|var_pop)。適用する集計関数を指定します。
使用可能な集計関数には、avg countDistinct、count、first、last、kurtosis、max、min、skewness、stddev_samp、stddev_pop、sum、sumDistinct、var_samp、var_pop などがあります。
GlueSchema 構造
AWS Glue でスキーマを決定できない場合に、ユーザー定義のスキーマを指定します。
フィールド
-
Columns– GlueStudioSchemaColumn オブジェクトの配列。AWS Glue スキーマを作成する列の定義を指定します。
GlueStudioSchemaColumn 構造
AWS Glue スキーマ定義内の列を 1 つ指定します。
フィールド
-
Name– 必須: バイト長が 1024 以下で Single-line string pattern に適合する、UTF-8 文字列。AWS Glue Studio スキーマ内にある列の名前。
-
Type– UTF-8 文字列。131,072 バイト長以下。Single-line string pattern に一致。AWS Glue Studio スキーマ内にあるこの列のハイブタイプ。
-
GlueStudioType– UTF-8 文字列。131,072 バイト長以下。Single-line string pattern に一致。AWS Glue Studio 内で定義された列のデータタイプ。
GlueStudioColumn 構造
AWS Glue Studio 内の列を 1 つ指定します。
フィールド
-
Key– 必須: UTF-8 文字列。Custom string pattern #61 に一致。AWS Glue Studio 内の列のキー。
-
FullPath– 必須: UTF-8 文字列の配列。AWS Glue Studio 内の列の完全な URL。
-
Type– 必須: UTF-8 文字列 (有効な値:array="ARRAY"|bigint="BIGINT"|bigint array="BIGINT_ARRAY"|binary="BINARY"|binary array="BINARY_ARRAY"|boolean="BOOLEAN"|boolean array="BOOLEAN_ARRAY"|byte="BYTE"|byte array="BYTE_ARRAY"|char="CHAR"|char array="CHAR_ARRAY"|choice="CHOICE"|choice array="CHOICE_ARRAY"|date="DATE"|date array="DATE_ARRAY"|decimal="DECIMAL"|decimal array="DECIMAL_ARRAY"|double="DOUBLE"|double array="DOUBLE_ARRAY"|enum="ENUM"|enum array="ENUM_ARRAY"|float="FLOAT"|float array="FLOAT_ARRAY"|int="INT"|int array="INT_ARRAY"|interval="INTERVAL"|interval array="INTERVAL_ARRAY"|long="LONG"|long array="LONG_ARRAY"|object="OBJECT"|short="SHORT"|short array="SHORT_ARRAY"|smallint="SMALLINT"|smallint array="SMALLINT_ARRAY"|string="STRING"|string array="STRING_ARRAY"|timestamp="TIMESTAMP"|timestamp array="TIMESTAMP_ARRAY"|tinyint="TINYINT"|tinyint array="TINYINT_ARRAY"|varchar="VARCHAR"|varchar array="VARCHAR_ARRAY"|null="NULL"|unknown="UNKNOWN"|unknown array="UNKNOWN_ARRAY")。AWS Glue Studio 内の列のタイプ。
-
Children– 構造の配列。AWS Glue Studio 内の親列の子。
-
GlueStudioType– UTF-8 文字列 (有効な値:array="ARRAY"|bigint="BIGINT"|bigint array="BIGINT_ARRAY"|binary="BINARY"|binary array="BINARY_ARRAY"|boolean="BOOLEAN"|boolean array="BOOLEAN_ARRAY"|byte="BYTE"|byte array="BYTE_ARRAY"|char="CHAR"|char array="CHAR_ARRAY"|choice="CHOICE"|choice array="CHOICE_ARRAY"|date="DATE"|date array="DATE_ARRAY"|decimal="DECIMAL"|decimal array="DECIMAL_ARRAY"|double="DOUBLE"|double array="DOUBLE_ARRAY"|enum="ENUM"|enum array="ENUM_ARRAY"|float="FLOAT"|float array="FLOAT_ARRAY"|int="INT"|int array="INT_ARRAY"|interval="INTERVAL"|interval array="INTERVAL_ARRAY"|long="LONG"|long array="LONG_ARRAY"|object="OBJECT"|short="SHORT"|short array="SHORT_ARRAY"|smallint="SMALLINT"|smallint array="SMALLINT_ARRAY"|string="STRING"|string array="STRING_ARRAY"|timestamp="TIMESTAMP"|timestamp array="TIMESTAMP_ARRAY"|tinyint="TINYINT"|tinyint array="TINYINT_ARRAY"|varchar="VARCHAR"|varchar array="VARCHAR_ARRAY"|null="NULL"|unknown="UNKNOWN"|unknown array="UNKNOWN_ARRAY")。AWS Glue Studio 内で定義された列のデータタイプ。
DynamicTransform 構造
動的変換を実行するために必要なパラメータのセットを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #61 に一致。動的変換の名前を指定します。
-
TransformName– 必須: UTF-8 文字列。Custom string pattern #61 に一致。AWS Glue Studio ビジュアルエディタに表示される動的変換の名前を指定します。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の文字列。必要な動的変換の入力を指定します。
-
Parameters– TransformConfigParameter オブジェクトの配列。動的変換のパラメータを指定します。
-
FunctionName– 必須: UTF-8 文字列。Custom string pattern #61 に一致。動的変換の関数の名前を指定します。
-
Path– 必須: UTF-8 文字列。Custom string pattern #61 に一致。動的変換ソースファイルおよび設定ファイルのパスを指定します。
-
Version– UTF-8 文字列。Custom string pattern #61 に一致。このフィールドは使用されず、将来のリリースで非推奨となります。
-
OutputSchemas– GlueSchema オブジェクトの配列。動的変換用のデータスキーマを指定します。
TransformConfigParameter 構造
動的変換の設定ファイル内のパラメータを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #61 に一致。動的変換の設定ファイル内のパラメータの名前を指定します。
-
Type– 必須: UTF-8 文字列 (有効な値:str="STR"|int="INT"|float="FLOAT"|complex="COMPLEX"|bool="BOOL"|list="LIST"|null="NULL")。動的変換の設定ファイル内のパラメータタイプを指定します。
-
ValidationRule– UTF-8 文字列。Custom string pattern #61 に一致。動的変換の設定ファイル内の検証ルールを指定します。
-
ValidationMessage– UTF-8 文字列。Custom string pattern #61 に一致。動的変換の設定ファイル内の検証メッセージを指定します。
-
Value– UTF-8 文字列の配列。動的変換の設定ファイル内のパラメータの値を指定します。
-
ListType– UTF-8 文字列 (有効な値:str="STR"|int="INT"|float="FLOAT"|complex="COMPLEX"|bool="BOOL"|list="LIST"|null="NULL")。動的変換の設定ファイル内のパラメータのリスト型を指定します。
-
IsOptional– ブール。動的変換の設定ファイル内のパラメータがオプションかどうかを指定します。
EvaluateDataQuality 構造
データ品質評価基準を指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データ品質評価の名前。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の文字列。データ品質評価の入力。
-
Ruleset– 必須: UTF-8 文字列、1~65536 バイト長、Custom string pattern #59 に一致。データ品質評価のルールセット。
-
Output– UTF-8 文字列 (有効な値:PrimaryInput|EvaluationResults)。データ品質評価の出力。
-
PublishingOptions– DQResultsPublishingOptions オブジェクト。結果の発行方法を設定するオプション。
-
StopJobOnFailureOptions– DQStopJobOnFailureOptions オブジェクト。データ品質評価に失敗した場合にジョブを停止する方法を設定するオプション。
DQResultsPublishingOptions 構造
データ品質評価の結果の発行方法を設定するオプション。
フィールド
-
EvaluationContext– UTF-8 文字列。Custom string pattern #60 に一致。評価のコンテキスト。
-
ResultsS3Prefix– UTF-8 文字列。Custom string pattern #61 に一致。結果に追加された Amazon S3 プレフィックス。
-
CloudWatchMetricsEnabled– ブール。データ品質結果のメトリクスを有効にします。
-
ResultsPublishingEnabled– ブール。データ品質結果の発行を有効にします。
DQStopJobOnFailureOptions 構造
データ品質評価に失敗した場合にジョブを停止する方法を設定するオプション。
フィールド
-
StopJobOnFailureTiming– UTF-8 文字列 (有効な値:Immediate|AfterDataLoad)。データ品質評価が失敗した場合にジョブを停止するタイミング。オプションは Immediate または AfterDataLoad です。
EvaluateDataQualityMultiFrame 構造
データ品質評価基準を指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。データ品質評価の名前。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の以上の文字列。データ品質評価の入力。このリストにおける最初の入力はプライマリデータソースです。
-
AdditionalDataSources– キーバリューペアのマップ配列。各キーは、Custom string pattern #63 に適合する UTF-8 文字列です。
各値は、Custom string pattern #61 に適合する UTF-8 文字列です。
プライマリを除くすべてのデータソースのエイリアス。
-
Ruleset– 必須: UTF-8 文字列、1~65536 バイト長、Custom string pattern #59 に一致。データ品質評価のルールセット。
-
PublishingOptions– DQResultsPublishingOptions オブジェクト。結果の発行方法を設定するオプション。
-
AdditionalOptions– キーバリューペアのマップ配列。各キーは UTF-8 文字列 (有効な値:
performanceTuning.caching="CacheOption"|observations.scope="ObservationsOption"|compositeRuleEvaluation.method="CompositeOption")。各値は UTF-8 文字列。
変換のランタイム動作を設定するオプション。
-
StopJobOnFailureOptions– DQStopJobOnFailureOptions オブジェクト。データ品質評価に失敗した場合にジョブを停止する方法を設定するオプション。
Recipe 構造
AWS Glue ジョブで AWS Glue DataBrew レシピを使用する AWS Glue Studio ノード。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。AWS Glue Studio ノードの名前。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の文字列。レシピノードへの入力となるノード。これは ID によって識別されます。
-
RecipeReference– RecipeReference オブジェクト。ノードが使用する DataBrew レシピへの参照。
-
RecipeSteps– RecipeStep オブジェクトの配列。レシピノードで使用される変換ステップ。
RecipeReference 構造
AWS Glue DataBrew レシピへの参照。
フィールド
-
RecipeArn– 必須: UTF-8 文字列。Custom string pattern #61 に一致。DataBrew レシピの ARN。
-
RecipeVersion– 必須: UTF-8 文字列、1~16 バイト長。DataBrew レシピの RecipeVersion。
SnowflakeNodeData 構造
AWS Glue Studio で Snowflake ノードの設定を指定します。
フィールド
-
SourceType– UTF-8 文字列。Custom string pattern #60 に一致。取得したデータの指定方法を指定します。有効な値:
"table"、"query"。 -
Connection– オプション オブジェクト。Snowflake エンドポイントへの AWS Glue データカタログ接続を指定します。
-
Schema– UTF–8 文字列。ノードが使用する Snowflake データベーススキーマを指定します。
-
Table– UTF–8 文字列。ノードが使用する Snowflake テーブルを指定します。
-
Database– UTF–8 文字列。ノードが使用する Snowflake データベースを指定します。
-
TempDir– UTF-8 文字列。Custom string pattern #61 に一致。現在使用されていません。
-
IamRole– オプション オブジェクト。現在使用されていません。
-
AdditionalOptions– キーバリューペアのマップ配列。各キーは、Custom string pattern #61 に適合する UTF-8 文字列です。
各値は、Custom string pattern #61 に適合する UTF-8 文字列です。
Snowflake コネクタに渡される追加オプションを指定します。ノードの他の場所でオプションが指定されている場合、こちらが優先されます。
-
SampleQuery– UTF–8 文字列。querySourceType でデータを取得するために使用する SQL 文字列。 -
PreAction– UTF–8 文字列。Snowflake コネクタが標準アクションを実行する前に実行される SQL 文字列。
-
PostAction– UTF–8 文字列。Snowflake コネクタが標準アクションを実行した後に実行される SQL 文字列。
-
Action– UTF–8 文字列。既存のデータを持つテーブルに書き込むときに実行するアクションを指定します。有効な値は、
append、merge、truncate、dropです。 -
Upsert– ブール。アクションが
appendの場合に使用します。行が既に存在する場合の解決動作を指定します。true の場合、既存の行が更新されます。false の場合、それらの行が挿入されます。 -
MergeAction– UTF-8 文字列。Custom string pattern #60 に一致。マージアクションを指定します。有効な値:
simple、custom。simple の場合、マージ動作はMergeWhenMatchedとMergeWhenNotMatchedによって定義されます。custom の場合、MergeClauseによって定義されます。 -
MergeWhenMatched– UTF-8 文字列。Custom string pattern #60 に一致。マージ時に既存のデータと一致するレコードを解決する方法を指定します。有効な値:
update、delete。 -
MergeWhenNotMatched– UTF-8 文字列。Custom string pattern #60 に一致。マージ時に既存のデータと一致しないレコードを処理する方法を指定します。有効な値:
insert、none。 -
MergeClause– UTF–8 文字列。カスタムマージ動作を指定する SQL ステートメント。
-
StagingTable– UTF–8 文字列。mergeまたは upsert を行うappendアクションを実行するときに使用されるステージングテーブルの名前。データはこのテーブルに書き込まれ、生成されたポストアクションによってtableに移動されます。 -
SelectedColumns– オプション オブジェクトの配列。マージや upsert の一致を検出するときに、レコードを識別するために組み合わせる列を指定します。
value、label、descriptionキーを使用する構造のリストです。各構造は列を記述します。 -
AutoPushdown– ブール。自動クエリプッシュダウンを有効にするかどうかを指定します。プッシュダウンが有効になっている場合、Spark でクエリを実行すると、クエリの一部が Snowflake サーバーに「プッシュダウン」できる場合にクエリがプッシュダウンされます。これにより、一部のクエリのパフォーマンスが向上します。
-
TableSchema– オプション オブジェクトの配列。ノードのターゲットスキーマを手動で定義します。
value、label、descriptionキーを使用する構造のリストです。各構造は列を定義します。
SnowflakeSource 構造
Snowflake データソースを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。Snowflake データソースの名前。
-
Data– 必須: SnowflakeNodeData オブジェクト。Snowflake データソースの設定。
-
OutputSchemas– GlueSchema オブジェクトの配列。出力データのユーザー定義スキーマを指定します。
SnowflakeTarget 構造
Snowflake ターゲットを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。Snowflake ターゲットの名前。
-
Data– 必須: SnowflakeNodeData オブジェクト。Snowflake ターゲットノードのデータを指定します。
-
Inputs– UTF-8 文字列の配列、1 個の文字列。データターゲットへの入力であるノード。
ConnectorDataSource の構造
標準の接続オプションを使用して生成されたソースを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。このソースノードの名前。
-
ConnectionType– 必須: UTF-8 文字列。Custom string pattern #61 に一致。基盤となる AWS Glue ライブラリに提供される
connectionType。ノードタイプアは、次の接続タイプをサポートします。-
opensearch -
azuresql -
azurecosmos -
bigquery -
saphana -
teradata -
vertica
-
-
Data– 必須: キーバリューペアのマップ配列。各キーは UTF-8 文字列。
各値は UTF-8 文字列。
ノードの接続オプションを指定するマップ。AWS Glue ドキュメントの「接続パラメータ」セクションで、対応する接続タイプ用の標準接続オプションを確認できます。
-
OutputSchemas– GlueSchema オブジェクトの配列。このソース用のデータスキーマを指定します。
ConnectorDataTarget の構造
標準の接続オプションを使用して生成されたターゲットを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。このターゲットノードの名前。
-
ConnectionType– 必須: UTF-8 文字列。Custom string pattern #61 に一致。基盤となる AWS Glue ライブラリに提供される
connectionType。ノードタイプアは、次の接続タイプをサポートします。-
opensearch -
azuresql -
azurecosmos -
bigquery -
saphana -
teradata -
vertica
-
-
Data– 必須: キーバリューペアのマップ配列。各キーは UTF-8 文字列。
各値は UTF-8 文字列。
ノードの接続オプションを指定するマップ。AWS Glue ドキュメントの「接続パラメータ」セクションで、対応する接続タイプ用の標準接続オプションを確認できます。
-
Inputs– UTF-8 文字列の配列、1 個の文字列。データターゲットへの入力であるノード。
RecipeStep 構造
AWS Glue Studio データ準備レシピノードで使用されるレシピステップ。
フィールド
-
Action– 必須: RecipeAction オブジェクト。レシピステップの変換アクション。
-
ConditionExpressions– ConditionExpression オブジェクトの配列。レシピステップの条件式。
RecipeAction 構造
AWS Glue Studio データ準備レシピノードで定義されるアクション。
フィールド
-
Operation– 必須: UTF-8 文字列、1~128 バイト長、「Custom string pattern #56」に一致。レシピアクションのオペレーション。
-
Parameters– キーバリューペアのマップ配列。各キーは UTF-8 文字列、1~128 バイト長で、Custom string pattern #57 に一致します。
各値は UTF-8 文字列で、1~32768 バイト長です。
レシピアクションのパラメータ。
ConditionExpression 構造
AWS Glue Studio データ準備レシピノードで定義される条件式。
フィールド
-
Condition– 必須: UTF-8 文字列、1~128 バイト長、「Custom string pattern #56」に一致。条件式の条件。
-
Value– UTF-8 文字列、1024 バイト長以下。条件式の値。
-
TargetColumn– 必須: UTF-8 文字列、1~1024 バイト長。条件式のターゲット列。
S3CatalogIcebergSource 構造
AWS Glue データカタログ内に登録されている Apache Iceberg データソースを指定します。Iceberg データソースは Amazon S3 に保存する必要があります。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。Iceberg データソースの名前。
-
Database– 必須: UTF-8 文字列。Custom string pattern #61 に一致。読み取りデータベースの名前。
-
Table– 必須: UTF-8 文字列。Custom string pattern #61 に一致。読み取りデータベースのテーブルの名前。
-
AdditionalIcebergOptions– キーバリューペアのマップ配列。各キーは、Custom string pattern #61 に適合する UTF-8 文字列です。
各値は、Custom string pattern #61 に適合する UTF-8 文字列です。
Iceberg データソースの追加の接続オプションを指定します。
-
OutputSchemas– GlueSchema オブジェクトの配列。Iceberg ソース用のデータスキーマを指定します。
CatalogIcebergSource 構造
AWS Glue データカタログ内に登録されている Apache Iceberg データソースを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。Iceberg データソースの名前。
-
Database– 必須: UTF-8 文字列。Custom string pattern #61 に一致。読み取りデータベースの名前。
-
Table– 必須: UTF-8 文字列。Custom string pattern #61 に一致。読み取りデータベースのテーブルの名前。
-
AdditionalIcebergOptions– キーバリューペアのマップ配列。各キーは、Custom string pattern #61 に適合する UTF-8 文字列です。
各値は、Custom string pattern #61 に適合する UTF-8 文字列です。
Iceberg データソースの追加の接続オプションを指定します。
-
OutputSchemas– GlueSchema オブジェクトの配列。Iceberg ソース用のデータスキーマを指定します。
S3IcebergCatalogTarget 構造
Amazon S3 にデータを書き込み、AWS Glue データカタログにテーブルを登録する Apache Iceberg カタログターゲットを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。Iceberg カタログターゲットの名前。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の文字列。Iceberg カタログターゲットの入力接続。
-
PartitionKeys– UTF-8 文字列の配列。Iceberg テーブルのパーティションキーのリスト。
-
Table– 必須: UTF-8 文字列。Custom string pattern #61 に一致。カタログの書き込むテーブルの名前。
-
Database– 必須: UTF-8 文字列。Custom string pattern #61 に一致。書き込むデータベースの名前。
-
AdditionalOptions– キーバリューペアのマップ配列。各キーは、Custom string pattern #61 に適合する UTF-8 文字列です。
各値は、Custom string pattern #61 に適合する UTF-8 文字列です。
Iceberg カタログターゲットの追加接続オプションを指定します。
-
SchemaChangePolicy– CatalogSchemaChangePolicy オブジェクト。カタログターゲットでスキーマの変更を処理するためのポリシー。
-
AutoDataQuality– AutoDataQuality オブジェクト。S3 Iceberg カタログターゲットのデータ品質評価を自動的に有効にするかどうかを指定します。
trueに設定すると、書き込み操作中にデータ品質チェックが自動的に実行されます。
DynamoDBELTConnectorSource 構造
DynamoDB テーブルからデータを抽出するための DynamoDB ELT コネクタソースを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。DynamoDB ELT コネクタソースの名前。
-
ConnectionOptions– DDBELTConnectionOptions オブジェクト。DynamoDB ELT コネクタソースの接続オプション。
-
OutputSchemas– GlueSchema オブジェクトの配列。DynamoDB ELT コネクタソースのデータスキーマを指定します。
DDBELTConnectionOptions 構造
DynamoDB ELT (抽出、ロード、変換) オペレーションの接続オプションを指定します。この構造には、ELT コネクタを使用して DynamoDB テーブルに接続し、そこからデータを抽出するための設定パラメータが含まれています。
フィールド
-
DynamodbExport– UTF-8 文字列 (有効な値:ddb|s3)。DynamoDB データ抽出のエクスポートタイプを指定します。このパラメータは、ELT プロセス中に DynamoDB テーブルからデータをエクスポートする方法を決定します。
-
DynamodbUnnestDDBJson– ブール。データ抽出中に DynamoDB JSON 形式をネスト解除するかどうかを指定するブール値。
trueに設定すると、コネクタは DynamoDB 項目からネストされた JSON 構造をフラット化します。falseに設定すると、元の DynamoDB JSON 構造が保持されます。 -
DynamodbTableArn– 必須: UTF-8 文字列。Custom string pattern #61 に一致。抽出する DynamoDB テーブルの Amazon リソースネーム (ARN)。このパラメータは、ELT オペレーションのソーステーブルを指定します。
-
DynamodbS3Bucket– UTF-8 文字列。Custom string pattern #61 に一致。DynamoDB ELT プロセス中に中間ストレージに使用される Amazon S3 バケットの名前。このバケットは、エクスポートされた DynamoDB データが ELT ジョブによって処理される前に一時的に保存されるために使用されます。
-
DynamodbS3Prefix– UTF-8 文字列。Custom string pattern #61 に一致。DynamoDB ELT プロセス中に中間 S3 バケットに保存されるファイルの S3 オブジェクトキープレフィックス。このプレフィックスは、データ抽出中に作成された一時ファイルの整理と識別に役立ちます。
-
DynamodbS3BucketOwner– UTF-8 文字列。Custom string pattern #61 に一致。DynamodbS3Bucketで指定された S3 バケットの所有者の AWS アカウント ID。このパラメータは、S3 バケットが ELT ジョブを実行しているアカウントとは異なる AWS アカウントによって所有されており、中間ストレージバケットへのクロスアカウントアクセスを有効にする場合に必要です。 -
DynamodbStsRoleArn– UTF-8 文字列。Custom string pattern #61 に一致。ELT オペレーション中に DynamoDB および S3 リソースにアクセスするために引き受ける AWS Security Token Service (STS) ロールの Amazon リソースネーム (ARN)。このロールには、DynamoDB テーブルから読み取り、中間 S3 バケットに書き込むために必要なアクセス許可が必要です。
DDBELTCatalogAdditionalOptions 構造
DynamoDB ELT カタログ操作の追加オプションを指定します。
フィールド
-
DynamodbExport– UTF-8 文字列。Custom string pattern #61 に一致。ELT オペレーションの DynamoDB エクスポート設定を指定します。
-
DynamodbUnnestDDBJson– ブール。DynamoDB JSON 形式をネスト解除するかどうかを指定します。
trueに設定すると、DynamoDB 項目のネストされた JSON 構造はフラット化されます。
ルート構造
定義されたフィルタリング条件に基づいてデータを異なる出力パスに送信するルートノードを指定します。
フィールド
-
Name– 必須: UTF-8 文字列。Custom string pattern #63 に一致。ルートノードの名前。
-
Inputs– 必須: UTF-8 文字列の配列。1 個の文字列。ルートノードの入力接続。
-
GroupFiltersList– 必須: GroupFilters オブジェクトの配列。データを異なる出力パスに送信するためのルーティング条件と基準を定義するグループフィルターのリスト。
GroupFilters 構造
フィルタを組み合わせてルーティング条件を評価する方法を決定する論理演算子を持つフィルタのグループを指定します。
フィールド
-
GroupName– 必須: UTF-8 文字列。Custom string pattern #60 に一致。フィルタグループの名前。
-
Filters– 必須: FilterExpression オブジェクトの配列。このグループの条件を定義するフィルタ式のリスト。
-
LogicalOperator– 必須: UTF-8 文字列 (有効な値:AND|OR)。このグループのフィルタを組み合わせるために使用される論理演算子。すべてのフィルタが (AND) 一致する必要があるか、任意のフィルタが (OR) 一致できるかを決定します。
AutoDataQuality 構造
AWS Glue ジョブでの自動データ品質評価の設定オプションを指定します。この構造により、ETL オペレーション中のデータ品質の自動チェックとモニタリングが可能になり、手動による介入なしでデータの整合性と信頼性を確保できます。
フィールド
-
IsEnabled– ブール。自動データ品質評価を有効にするかどうかを指定します。
trueに設定すると、データ品質チェックが自動的に実行されます。 -
EvaluationContext– UTF-8 文字列。Custom string pattern #61 に一致。自動データ品質チェックの評価コンテキスト。これにより、データ品質評価の範囲とパラメータが定義されます。