AWS Glue 連線屬性 - AWS Glue

AWS Glue 連線屬性

本主題包括 AWS Glue 連線屬性的相關資訊。

所需連線屬性

在 AWS Glue 主控台定義連線時,您必須為下列屬性提供值:

連線名稱

輸入您的連線的不重複名稱。

連線類型

選擇 JDBC 或其中一種特定的連線類型。

如需有關 JDBC 連線類型的詳細資訊,請參閱 AWS Glue JDBC 連線屬性

選擇 Network (網路) 連接到 Amazon Virtual Private Cloud 環境 (Amazon VPC) 內的資料來源。

視您選擇的類型而定,AWS Glue 主控台會顯示其他必要的欄位。例如,如果您選擇 Amazon RDS,那麼您就必須選擇資料庫引擎。

需要 SSL 連線

選擇此選項時,AWS Glue​ 必須驗證連線已透過信任的 Secure Sockets Layer (SSL) 連線。

如需詳細資訊,包含在您選擇此選項時可用的額外選項,請參閱 AWS Glue SSL 連線屬性

選取 MSK 叢集 (僅限 Amazon Managed Streaming for Apache Kafka (MSK))

指定其他 AWS 帳戶中的 MSK 叢集。

Kafka 引導伺服器 URL (僅限 Kafka)

指定以逗號分隔的引導伺服 URL 清單。請加上連接埠號碼。例如:b-1.vpc-test-2.o4q88o.c6.kafka.us-east-1.amazonaws.com:9094, b-2.vpc-test-2.o4q88o.c6.kafka.us-east-1.amazonaws.com:9094, b-3.vpc-test-2.o4q88o.c6.kafka.us-east-1.amazonaws.com:9094

AWS Glue JDBC 連線屬性

AWS Glue Studio 現在會為 MySQL、Oracle、PostgresSQL、Redshift 和 SQL Server 資料來源建立統一連線,這需要額外的步驟才能存取 Secrets Manager 和 VPC 資源,這可能會產生額外成本。您可以透過選擇個別連線的連線名稱,在 AWS Glue Studio 中存取這些連線。

如需更多詳細資訊,請參閱 考量事項

AWS Glue 可以透過 JDBC 連線連接到以下資料存放區:

  • Amazon Redshift

  • Amazon Aurora

  • Microsoft SQL Server

  • MySQL

  • Oracle

  • PostgreSQL

  • Snowflake,使用 AWS Glue 爬蟲程式時。

  • Aurora (如果正在使用原生 JDBC 驅動程式則支援。並非所有驅動程式功能都可用)

  • Amazon RDS for MariaDB

重要

目前,ETL 任務只能使用一個子網路中的 JDBC 連線。如果您的任務中有多個資料存放區,它們必須位於同一個子網路,或者可從該子網路存取。

如果您選擇為 AWS Glue 爬蟲程式引入自己的 JDBC 驅動程式版本,爬蟲程式將使用 AWS Glue 任務和 Amazon S3 中的資源,以確保您提供的驅動程式在環境中執行。帳戶中將反映資源的額外使用量。此外,提供您的 JDBC 驅動程式,並不代表爬蟲程式能夠運用驅動程式的所有功能。驅動程式僅限於在資料型錄中定義連線中所述的屬性。

下列是 JDBC 連線類型的額外屬性。

JDBC URL

輸入您的 JDBC 資料存放區的 URL。對於大多數資料庫引擎而言,此欄位為以下格式。在此格式中,將 protocolhostportdb_name 替換為您自己的資訊。

jdbc:protocol://host:port/db_name

依據資料庫引擎而定,可能需要不同的 JDBC URL 格式。此格式在使用冒號 (:) 和斜線 (/) 或不同關鍵字以指定資料庫方面,可以稍有不同。

如果是 JDBC 要連接到資料存放區,需要資料存放區中的 db_namedb_name 用於搭配 usernamepassword 來建立網路連線。連線時,AWS Glue 可存取資料存放區內地其他資料庫,以執行爬蟲程式或執行 ETL 任務。

以下 JDBC URL 範例顯示多種資料庫引擎的語法。

  • 若要連接到具有 dev 資料庫的 Amazon Redshift 叢集資料存放區:

    jdbc:redshift://xxx.us-east-1.redshift.amazonaws.com:8192/dev

  • 若要連接到具有 employee 資料庫的 Amazon RDS for MySQL 資料存放區:

    jdbc:mysql://xxx-cluster.cluster-xxx.us-east-1.rds.amazonaws.com:3306/employee

  • 若要連接到具有 employee 資料庫的 Amazon RDS for PostgreSQL 資料存放區:

    jdbc:postgresql://xxx-cluster.cluster-xxx.us-east-1.rds.amazonaws.com:5432/employee

  • 若要連接到具有 employee 服務名稱的 Amazon RDS for Oracle 資料存放區:

    jdbc:oracle:thin://@xxx-cluster.cluster-xxx.us-east-1.rds.amazonaws.com:1521/employee

    Amazon RDS for Oracle 的語法可依照下列模式。在這些模式中,使用您自己的資訊取代 hostportservice_nameSID

    • jdbc:oracle:thin://@host:port/service_name

    • jdbc:oracle:thin://@host:port:SID

  • 若要連接到具有 employee 資料庫的 Amazon RDS for Microsoft SQL Server 資料存放區:

    jdbc:sqlserver://xxx-cluster.cluster-xxx.us-east-1.rds.amazonaws.com:1433;databaseName=employee

    Amazon RDS for SQL Server 的語法可依照下列模式。在這些模式中,使用您自己的資訊取代 server_nameportdb_name

    • jdbc:sqlserver://server_name:port;database=db_name

    • jdbc:sqlserver://server_name:port;databaseName=db_name

  • 若要連接到 employee 資料庫中的 Amazon Aurora PostgreSQL 執行個體,請指定資料庫執行個體的端點、連接埠和資料庫名稱:

    jdbc:postgresql://employee_instance_1.xxxxxxxxxxxx.us-east-2.rds.amazonaws.com:5432/employee

  • 若要連接到 employee 資料庫中的 Amazon RDS for MariaDB 資料存放區,請指定資料庫執行個體的端點、連接埠和資料庫名稱:

    jdbc:mysql://xxx-cluster.cluster-xxx.aws-region.rds.amazonaws.com:3306/employee

  • 警告

    只有 AWS Glue 爬蟲程式才支援 Snowflake JDBC 連線。在 AWS Glue 任務中使用 Snowflake 連接器時,請使用 Snowflake 連線類型。

    若要連線到 sample 資料庫中的 Snowflake 執行個體,請指定 Snowflake 執行個體的端點、使用者、資料庫名稱和角色名稱。您可以選擇是否新增 warehouse 參數。

    jdbc:snowflake://account_name.snowflakecomputing.com/?user=user_name&db=sample&role=role_name&warehouse=warehouse_name

    重要

    對於透過 JDBC 實現的 Snowflake 連線,會強制執行 URL 中的參數順序,且必須按 userdbrole_namewarehouse 排序參數。

  • 若要使用 AWS 私人連結連線至 sample 資料庫的 Snowflake 執行個體,請按如下所示指定 Snowflake JDBC URL:

    jdbc:snowflake://account_name.region.privatelink.snowflakecomputing.com/?user=user_name&db=sample&role=role_name&warehouse=warehouse_name

使用者名稱
注意

建議您使用 AWS 秘密存放連線憑證,而不是直接提供使用者名稱和密碼。如需更多詳細資訊,請參閱在 AWS Secrets Manager 中存放連線憑證

提供有 JDBC 資料存放區存取許可的使用者名稱。

密碼

輸入提供有 JDBC 資料存放區存取許可的使用者名稱之密碼。

連線埠

輸入在 JDBC URL 中使用的連接埠,以連線至 Amazon RDS​ Oracle 執行個體。此欄位只有在針對 Amazon RDS Oracle 執行個體選取了 Require SSL connection (需要 SSL 連線) 時才會顯示。

VPC

選擇包含您的資料存放區的虛擬私有雲端 (VPC) 的名稱。AWS Glue 主控台會列出目前區域中所有的 VPC。

重要

透過在 AWS 外託管的 JDBC 連線作業時,例如使用 Snowflake 中的資料,VPC 應該有一個 NAT 閘道,將流量分割為公有和私有子網路。公有子網路用於連線至外部來源,而內部子網路則用於由 AWS Glue 處理。如需有關為外部連線設定 Amazon VPC 的資訊,請參閱使用 NAT 裝置連線至網際網路或其他網路針對從 AWS Glue 到 Amazon RDS 資料存放區的 JDBC 連線設定 Amazon VPC

子網路

選擇 VPC 中包含您的資料存放區的子網路。AWS Glue 主控台列出您 VPC 中的資料存放區的所有子網路。

安全群組

選擇與您的資料存放區關聯的安全群組。AWS Glue 需要一或多個安全群組以及可讓 AWS Glue 連線的傳入來源規則。AWS Glue​ 主控台會列出所有已授權傳入存取 VPC 的安全群組。AWS Glue 將這些安全群組關聯至連接您 VPC 子網路的彈性網路界面。

JDBC 驅動程式類別名稱:選用

提供自訂 JDBC 驅動程式類別名稱:

  • Postgres – org.postgresql.Driver


  • 
 MySQL – com.mysql.jdbc.Driver、com.mysql.cj.jdbc.Driver


  • 
 Redshift – com.amazon.redshift.jdbc.Driver、com.amazon.redshift.jdbc42.Driver 


  • 
 Oracle – oracle.jdbc.driver.OracleDriver


  • 
 SQL Server – com.microsoft.sqlserver.jdbc.SQLServerDriver


JDBC 驅動程式 S3 路徑:選用

將 Amazon S3 位置提供給自訂 JDBC 驅動程式。這是 .jar 檔案的絕對路徑。如果您想要提供自己的 JDBC 驅動程式,以連線至爬蟲程式支援之資料庫的資料來源,您可以為參數 customJdbcDriverS3PathcustomJdbcDriverClassName 指定值。
 使用客戶提供的 JDBC 驅動程式僅限於所需的 所需連線屬性

AWS Glue MongoDB 和 MongoDB Atlas 連線屬性

下列是 MongoDB 或 MongoDB Atlas 連線類型的額外屬性。

MongoDB URL

輸入您的 MongoDB 或 MongoDB Atlas 資料存放區的網址:

  • 若是 MongoDB︰mongodb://host:port/database。主機可以是主機名稱、IP 地址或 UNIX 域通訊端。如果連接字串沒有指定連接埠,則會使用預設的 MongoDB 連接埠 27017。

  • 若是 MongoDB Atlas:mongodb+srv://server.example.com/database。主機可以是遵循對應於 DNS SRV 記錄的主機名稱。SRV 格式不需要連接埠,而且會使用預設的 MongoDB 連接埠 27017。

使用者名稱
注意

建議您使用 AWS 秘密存放連線憑證,而不是直接提供使用者名稱和密碼。如需更多詳細資訊,請參閱在 AWS Secrets Manager 中存放連線憑證

提供有 JDBC 資料存放區存取許可的使用者名稱。

密碼

輸入提供有 MongoDB 或 MongoDB Atlas 資料存放區存取許可的使用者名稱之密碼。

Salesforce 連線屬性

以下是 Salesforce 連線類型的其他屬性。

  • ENTITY_NAME(String) - (必要) 用於讀取/寫入。Salesforce 中的物件名稱。

  • API_VERSION(String) - (必要) 用於讀取/寫入。您想要使用的 Salesforce Rest API 版本。

  • SELECTED_FIELDS(List<String>) - 預設:empty(SELECT *)。用於讀取。您要為物件選取的資料欄。

  • FILTER_PREDICATE(String) - 預設:空白。用於讀取。其應該為 Spark SQL 格式。

  • QUERY(String) - 預設:空白。用於讀取。完整的 Spark SQL 查詢。

  • PARTITION_FIELD(String) - 用於讀取。用於分區查詢的欄位。

  • LOWER_BOUND(String) - 用於讀取。所選分區欄位的包含下限值。

  • UPPER_BOUND(String) - 用於讀取。所選分區欄位的唯一上限值。

  • NUM_PARTITIONS(Integer) - 預設:1。用於讀取。要讀取的分區數目。

  • IMPORT_DELETED_RECORDS(String) - 預設:FALSE。用於讀取。在查詢時取得刪除記錄。

  • WRITE_OPERATION(String) - 預設:INSERT。用於寫入。值應為 INSERT、UPDATE、UPSERT、DELETE。

  • ID_FIELD_NAMES(String) - 預設:null。僅用於 UPSERT。

Snowflake 連線

下列屬性可用於設定 AWS Glue ETL 任務中使用的 Snowflake 連線。對 Snowflake 進行網路爬取時,請使用 JDBC 連線。

Snowflake URL

Snowflake 端點的 URL。如需有關 Snowflake 端點 URL 的詳細資訊,請參閱 Snowflake 文件中的 Connecting to Your Accounts

AWS 秘密

AWS Secrets Manager 中機密的機密名稱。AWS Glue 將使用機密的 sfUsersfPassword 索引鍵來連線至 Snowflake。

Snowflake 角色 (選用)

連線時 AWS Glue 將使用的 Snowflake 安全角色。

使用 AWS PrivateLink 設定與 Amazon VPC 中託管的 Snowflake 端點的連線時,請使用下列屬性。

VPC

選擇包含您的資料存放區的虛擬私有雲端 (VPC) 的名稱。AWS Glue 主控台會列出目前區域中所有的 VPC。

子網路

選擇 VPC 中包含您的資料存放區的子網路。AWS Glue 主控台列出您 VPC 中的資料存放區的所有子網路。

安全群組

選擇與您的資料存放區關聯的安全群組。AWS Glue 需要一或多個安全群組以及可讓 AWS Glue 連線的傳入來源規則。AWS Glue​ 主控台會列出所有已授權傳入存取 VPC 的安全群組。AWS Glue 將這些安全群組關聯至連接您 VPC 子網路的彈性網路界面。

Vertica 連線

使用下列屬性設定 AWS Glue ETL 任務的 Vertica 連線。

Vertica 主機

Vertica 安裝的主機名稱。

Vertica 連接埠

您可透過該連接埠安裝 Vertica。

AWS Secret

AWS Secrets Manager 中密碼的密碼名稱。AWS Glue 將會使用密碼的金鑰連線至 Vertica。

設定連至 Amazon VPC 中託管之 Vertica 端點的連線時,請使用下列屬性。

VPC

選擇包含您的資料存放區的虛擬私有雲端 (VPC) 的名稱。AWS Glue 主控台會列出目前區域中所有的 VPC。

子網路

選擇 VPC 中包含您的資料存放區的子網路。AWS Glue 主控台列出您 VPC 中的資料存放區的所有子網路。

安全群組

選擇與您的資料存放區關聯的安全群組。AWS Glue 需要一或多個安全群組以及可讓 AWS Glue 連線的傳入來源規則。AWS Glue​ 主控台會列出所有已授權傳入存取 VPC 的安全群組。AWS Glue 將這些安全群組關聯至連接您 VPC 子網路的彈性網路界面。

SAP HANA 連線

使用下列屬性設定 AWS Glue ETL 任務的 SAP HANA 連線。

SAP HANA URL

SAP JDBC URL。

SAP HANA JDBC URL 會採用的格式為 jdbc:sap://saphanaHostname:saphanaPort/?databaseName=saphanaDBname,ParameterName=ParameterValue

AWS Glue 需要下列 JDBC URL 參數:

  • databaseName:要連線之 SAP HANA 的預設資料庫。

AWS Secret

AWS Secrets Manager 中密碼的密碼名稱。AWS Glue 將會使用密碼的金鑰連線至 SAP HANA。

設定連至 Amazon VPC 中託管之 SAP HANA 端點的連線時,請使用下列屬性:

VPC

選擇包含您的資料存放區的虛擬私有雲端 (VPC) 的名稱。AWS Glue 主控台會列出目前區域中所有的 VPC。

子網路

選擇 VPC 中包含您的資料存放區的子網路。AWS Glue 主控台列出您 VPC 中的資料存放區的所有子網路。

安全群組

選擇與您的資料存放區關聯的安全群組。AWS Glue 需要一或多個安全群組以及可讓 AWS Glue 連線的傳入來源規則。AWS Glue​ 主控台會列出所有已授權傳入存取 VPC 的安全群組。AWS Glue 將這些安全群組關聯至連接您 VPC 子網路的彈性網路界面。

Azure SQL 連線

使用下列屬性設定 AWS Glue ETL 任務的 Azure SQL 連線。

Azure SQL URL

Azure SQL 端點的 JDBC URL。

此 URL 必須採用下列格式:jdbc:sqlserver://databaseServerName:databasePort;databaseName=azuresqlDBname;

AWS Glue 需要具有下列 URL 屬性:

  • databaseName:要連線之 Azure SQL 的預設資料庫。

如需有關 Azure SQL 受控執行個體之 JDBC URL 的詳細資訊,請參閱 Microsoft 文件

AWS Secret

AWS Secrets Manager 中密碼的密碼名稱。AWS Glue 將會使用密碼的金鑰連線至 Azure SQL。

Teradata Vantage 連線

使用下列屬性設定 AWS Glue ETL 任務的 Teradata Vantage 連線。

Teradata URL

若要連線至 Teradata 執行個體,請指定資料庫執行個體的主機名稱和相關的 Teradata 參數:

jdbc:teradata://teradataHostname/ParameterName=ParameterValue,ParameterName=ParameterValue.

AWS Glue 支援下列 JDBC URL 參數:

  • DATABASE_NAME:要連線之 Teradata 的預設資料庫。

  • DBS_PORT:指定 Teradata 連接埠 (如果非標準)。

AWS Secret

AWS Secrets Manager 中密碼的密碼名稱。AWS Glue 將會使用密碼的金鑰連線至 Teradata Vantage。

設定連至 Amazon VPC 中託管之 Teradata Vantage 端點的連線時,請使用下列屬性:

VPC

選擇包含您的資料存放區的虛擬私有雲端 (VPC) 的名稱。AWS Glue 主控台會列出目前區域中所有的 VPC。

子網路

選擇 VPC 中包含您的資料存放區的子網路。AWS Glue 主控台列出您 VPC 中的資料存放區的所有子網路。

安全群組

選擇與您的資料存放區關聯的安全群組。AWS Glue 需要一或多個安全群組以及可讓 AWS Glue 連線的傳入來源規則。AWS Glue​ 主控台會列出所有已授權傳入存取 VPC 的安全群組。AWS Glue 將這些安全群組關聯至連接您 VPC 子網路的彈性網路界面。

OpenSearch Service 連線

使用下列屬性設定 AWS Glue ETL 任務的 OpenSearch Service 連線。

網域端點

Amazon OpenSearch Service 網域端點將會顯示下列預設格式:https://search-domainName-unstructuredIdContent.region.es.amazonaws.com。如需有關識別網域端點的詳細資訊,請參閱《Amazon OpenSearch Service 文件》中的建立和管理 Amazon OpenSearch Service 網域

連線埠

端點上開啟的連接埠。

AWS Secret

AWS Secrets Manager 中密碼的密碼名稱。AWS Glue 將會使用密碼的金鑰連線至 OpenSearch Service。

設定連至 Amazon VPC 中託管之 OpenSearch Service 端點的連線時,請使用下列屬性:

VPC

選擇包含您的資料存放區的虛擬私有雲端 (VPC) 的名稱。AWS Glue 主控台會列出目前區域中所有的 VPC。

子網路

選擇 VPC 中包含您的資料存放區的子網路。AWS Glue 主控台列出您 VPC 中的資料存放區的所有子網路。

安全群組

選擇與您的資料存放區關聯的安全群組。AWS Glue 需要一或多個安全群組以及可讓 AWS Glue 連線的傳入來源規則。AWS Glue​ 主控台會列出所有已授權傳入存取 VPC 的安全群組。AWS Glue 將這些安全群組關聯至連接您 VPC 子網路的彈性網路界面。

Azure Cosmos 連線

使用下列屬性設定 AWS Glue ETL 任務的 Azure Cosmos 連線。

Azure Cosmos DB 帳戶端點 URI

用來連線至 Azure Cosmos 的端點。如需詳細資訊,請參閱 Azure 文件

AWS Secret

AWS Secrets Manager 中密碼的密碼名稱。AWS Glue 將會使用密碼的金鑰連線至 Azure Cosmos。

AWS Glue SSL 連線屬性

以下是 Require SSL connection (需要 SSL 連線) 屬性的相關詳細資訊。

如果您不需要 SSL 連線,AWS Glue​ 在使用 SSL 加密與資料存放區的連線時會忽略錯誤。請參閱適用於您資料存放區的文件以取得組態說明。當您選取此選項時,如果 AWS Glue​ 無法連線,開發端點中的任務執行、爬蟲程式或 ETL 陳述式即失敗。

注意

Snowflake 依預設支援 SSL 連線,因此此屬性不適用於 Snowflake。

此選項會在 AWS Glue 用戶端驗證。對於 JDBC 連線,AWS Glue 僅使用憑證和主機名稱驗證透過 SSL 連線。SSL 連線支援適用於:

  • Oracle 資料庫

  • Microsoft SQL Server

  • PostgreSQL

  • Amazon Redshift

  • MySQL (僅限 Amazon RDS 執行個體)

  • Amazon Aurora MySQL (僅限 Amazon RDS 執行個體)

  • Amazon Aurora PostgreSQL (僅限 Amazon RDS 執行個體)

  • Kafka,其中包括 Amazon Managed Streaming for Apache Kafka

  • MongoDB

注意

若要啟用 ​Amazon RDS Oracle​ 資料存放區以使用 Require SSL connection (需要 SSL 連線),您必須建立並連接選項群組至 Oracle 執行個體。

  1. 登入 AWS Management Console,開啟位於 https://console.aws.amazon.com/rds/ 的 Amazon RDS 主控台。

  2. 新增 Option group (選項群組) 至 Amazon RDS Oracle 執行個體。如需有關如何在 Amazon RDS 主控台新增選項群組的詳細資訊,請參閱建立選項群組

  3. Option (選項) 新增至 SSL 選項群組。您為 SSL 指定的連接埠稍後會在您為 Amazon RDS Oracle 執行個體建立 AWS Glue JDBC 連線 URL 時用到。如需有關如何在 Amazon RDS 主控台新增選項的詳細資訊,請參閱 Amazon RDS 使用者指南中的將選項新增至選項群組。如需 Oracle SSL 選項的詳細資訊,請參閱 Amazon RDS 使用者指南中的 Oracle SSL

  4. 在 AWS Glue​ 主控台上建立一個至 Amazon RDS Oracle 執行個體的連線。在連線定義中,選擇 Require SSL connection (需要 SSL 連線)。根據要求,輸入您在 Amazon RDS Oracle SSL 選項中使用的 Port (連接埠)。

如果針對連線選取 Require SSL connection (需要 SSL 連線),下列其他選用屬性即為可用。

在 S3 中自訂 JDBC 憑證

如果您有目前用於內部部署或雲端資料庫進行 SSL 通訊的憑證,您可以將該憑證用於 AWS Glue 資料來源或目標的 SSL 連線。輸入包含自訂根憑證的 Amazon Simple Storage Service (Amazon S3) 位置。AWS Glue 會使用此憑證來建立資料庫的 SSL 連線。AWS Glue 只會處理 X.509 憑證。憑證必須為 DER 編碼,並以 base64 編碼 PEM 格式提供。

如果此欄位保留空白,將會使用預設憑證。

自訂 JDBC 憑證字串

輸入 JDBC 資料庫特定的憑證資訊。這是網域比對或辨別名稱 (DN) 比對使用的字串。若為 Oracle 資料庫,此字串會映射到 tnsnames.ora 檔案安全區段中的 SSL_SERVER_CERT_DN 參數。若為 Microsoft SQL Server,此字串會做為 hostNameInCertificate 使用。

以下是 Oracle 資料庫 SSL_SERVER_CERT_DN 參數的範例。

cn=sales,cn=OracleContext,dc=us,dc=example,dc=com
Kafka 私有 CA 憑證位置

如果您有目前用於 Kafka 資料存放區進行 SSL 通訊的憑證,您可以將該憑證用於 AWS Glue 連線。此選項對於 Kafka 資料存放區是必需的,對於 Amazon Managed Streaming for Apache Kafka 資料存放區是選用的。輸入包含自訂根憑證的 Amazon Simple Storage Service (Amazon S3) 位置。AWS Glue 會使用此憑證來建立資料庫的 SSL 連線。AWS Glue 只會處理 X.509 憑證。憑證必須為 DER 編碼,並以 base64 編碼 PEM 格式提供。

略過憑證驗證

選取 Skip certificate validation (略過憑證驗證) 核取方塊可略過 AWS Glue 執行的自訂憑證驗證。如果您選擇驗證,AWS Glue 會驗證憑證的簽章演算法和主體公開金鑰演算法。如果憑證驗證失敗,使用該連線的任何 ETL 任務或爬蟲程式都會失敗。

允許的簽章演算法僅限 SHA256withRSA、SHA384withRSA 或 SHA512withRSA。針對主體公開金鑰演算法,金鑰長度必須至少為 2048。

Kafka 用戶端金鑰存放區位置

用於 Kafka 用戶端身分驗證的用戶端金鑰存放區檔案的 Amazon S3 位置。路徑的格式必須為 s3://bucket/prefix/filename.jks。其檔案名稱結尾必須是 .jks 副檔名。

Kafka 用戶端金鑰存放區密碼 (選用)

存取提供的金鑰存放區的密碼。

Kafka 用戶端金鑰密碼 (選用)

金鑰存放區可以由多個金鑰組成,所以這是用來存取用於 Kafka 伺服器端金鑰之用戶端金鑰的密碼。

用於用戶端驗證的 Apache Kafka 連線屬性

建立 Apache Kafka 連線時,AWS Glue 支援簡單驗證及安全性階層 (SASL) 架構進行驗證。SASL 架構支援各種驗證機制,而 AWS Glue 提供了 SCRAM (使用者名稱和密碼)、GSSAPI (Kerberos 協定) 和 PLAIN 協定。

使用 AWS Glue Studio 可設定下列其中一種用戶端身分驗證方法。如需詳細資訊,請參閱《AWS Glue Studio 使用者指南》中的建立連接器的連線

  • 無 - 無身分驗證。如果為進行測試而建立連線,此方法會很有用。

  • SASL/SCRAM-SHA-512 - 選擇此身分驗證方法將允許您指定身分驗證憑證。有兩種可用選項:

    • 使用 AWS Secrets Manager (推薦) – 如果您選取此選項,則可以將使用者名稱和密碼存放在 AWS Secrets Manager 中,並在需要時讓 AWS Glue 進行存取。指定存放 SSL 或 SASL 驗證憑證的秘密。如需詳細資訊,請參閱 在 AWS Secrets Manager 中存放連線憑證

    • 請直接提供使用者名稱和密碼。

  • SASL/GSSAPI (Kerberos) - 如果您選取此選項,則可以選取 keytab 檔案和 krb5.conf 檔案的位置,然後輸入 Kerberos 主體名稱和 Kerberos 服務名稱。keytab 檔案和 krb5.conf 檔案的位置必須位於 Amazon S3 位置。由於 MSK 尚不支援 SASL/GSSAPI,此選項僅適用於客戶受管的 Apache Kafka 叢集。如需詳細資訊,請參閱 MIT Kerberos 文件:Keytab

  • SASL/PLAIN – 選擇此驗證方法來指定驗證憑證。有兩種選項可供選擇:

    • 使用 AWS Secrets Manager (推薦) – 如果您選取此選項,則可以將憑證存放在 AWS Secrets Manager 中,並在需要時讓 AWS Glue 存取資訊。指定存放 SSL 或 SASL 驗證憑證的秘密。

    • 直接提供使用者名稱和密碼。

  • SSL Client Authentication (SSL 用戶端身分驗證) - 若選取此選項,您可以透過瀏覽 Amazon S3 來選取 Kafka 用戶端金鑰存放區的位置。或者,您可以輸入 Kafka 用戶端金鑰存放區密碼和 Kafka 用戶端金鑰密碼。

Google BigQuery 連線

下列屬性可用於設定 AWS Glue ETL 任務中使用的 Google BigQuery 連線。如需更多詳細資訊,請參閱 BigQuery 連線

AWS Secret

AWS Secrets Manager 中秘密的秘密名稱。AWS GlueETL 任務將使用您秘密的 credentials 金鑰連線至 Google BigQuery。

Vertica 連線

下列屬性可用於設定 AWS Glue ETL 任務中使用的 Vertica 連線。如需更多詳細資訊,請參閱 Vertica 連線