AWS Glue-Verbindungseigenschaften - AWS Glue

AWS Glue-Verbindungseigenschaften

Dieses Thema enthält Informationen zu Eigenschaften für AWS Glue-Verbindungen.

Erforderliche Verbindungseigenschaften

Wenn Sie eine Verbindung in der AWS Glue-Konsole definieren, müssen Sie Werte für die folgenden Eigenschaften angeben:

Verbindungsname

Geben Sie einen eindeutigen Namen für Ihre Verbindung ein.

Verbindungstyp

Wählen Sie JDBC oder einen der spezifischen Verbindungstypen.

Weitere Informationen zum JDBC-Verbindungstyp finden Sie unter Eigenschaften der AWS Glue-JDBC-Verbindung

Wählen Sie Network (Netzwerk) aus, um eine Datenquelle in einer Amazon Virtual Private Cloud-Umgebung (Amazon VPC) zu verbinden.

Je nach ausgewähltem Typ zeigt die AWS Glue-Konsole weitere erforderliche Felder an. Wenn Sie beispielsweise Amazon RDS auswählen, müssen Sie anschließend die Datenbank-Engine auswählen.

SSL-Verbindung erforderlich

Wählen Sie diese Option, muss AWS Glue überprüfen, ob die JDBC-Datenbank über einen vertrauenswürdigen Secure Sockets Layer (SSL) verbunden ist.

Weitere Informationen, einschließlich zusätzlicher Optionen, die bei Auswahl dieser Option verfügbar sind, finden Sie unter AWS Glue-SSL-Verbindungseigenschaften.

Wählen Sie MSK-Cluster (Amazon Managed Streaming for Apache Kafka)

Gibt einen MSK-Cluster aus einem anderen AWS-Konto an.

Kafka-Bootstrap-Server-URLs (nur Kafka)

Gibt eine durch Komma getrennte Liste von Bootstrap-Server-URLs an. Schließen Sie die Portnummer ein. Beispiel: b-1.vpc-test-2.o4q88o.c6.kafka.us-east-1.amazonaws.com:9094, b-2.vpc-test-2.o4q88o.c6.kafka.us-east-1.amazonaws.com:9094, b-3.vpc-test-2.o4q88o.c6.kafka.us-east-1.amazonaws.com:9094

Eigenschaften der AWS Glue-JDBC-Verbindung

AWS Glue Studio erstellt jetzt einheitliche Verbindungen für MySQL-, Oracle-, PostgresSQL-, Redshift- und SQL Server-Datenquellen, was zusätzliche Schritte für den Zugriff auf Secrets-Manager- und VPC-Ressourcen erfordert, wodurch möglicherweise zusätzliche Kosten entstehen. Sie können in AWS Glue Studio auf diese Verbindungen zugreifen, indem Sie den Verbindungsnamen für die jeweilige Verbindung auswählen.

Weitere Informationen finden Sie unter Überlegungen.

AWS Glue kann eine JDBC-Verbindung mit den folgenden Datenspeichern herstellen:

  • Amazon Redshift

  • Amazon Aurora

  • Microsoft SQL Server

  • MySQL

  • Oracle

  • PostgreSQL

  • Snowflake, bei Verwendung von AWS Glue-Crawlern.

  • Aurora (unterstützt, wenn der native JDBC-Treiber verwendet wird. Nicht alle Features des Treibers können genutzt werden)

  • Amazon RDS for MariaDB

Wichtig

Ein ETL-Auftrag kann derzeit nur eine JDBC-Verbindung mit einem Subnetz verwenden. Wenn Sie über mehrere Datenspeicher in einem Auftrag verfügen, müssen sich diese im gleichen Subnetz befinden oder vom Subnetz erreichbar sein.

Wenn Sie Ihre eigenen JDBC-Treiberversionen für AWS Glue-Crawler einbinden, verbrauchen Ihre Crawler Ressourcen in AWS Glue-Aufträgen und Amazon S3, um sicherzustellen, dass Ihre bereitgestellten Treiber in Ihrer Umgebung ausgeführt werden. Der zusätzliche Ressourcenverbrauch wird in Ihrem Konto angezeigt. Darüber hinaus bedeutet die Bereitstellung eines eigenen JDBC-Treibers nicht, dass der Crawler alle Features des Treibers nutzen kann. Treiber sind auf die Eigenschaften beschränkt, die unter Definieren von Verbindungen im Data Catalog beschrieben sind.

Im Folgenden finden Sie zusätzliche Eigenschaften für den JDBC-Verbindungstyp.

JDBC-URL

Geben Sie die URL für Ihren JDBC-Datenspeicher ein. Für die meisten Datenbank-Engines wird dieses Feld in folgendem Format angegeben. Ersetzen Sie in diesem Format Protokoll, Host, Port und db_name durch eigene Informationen.

jdbc:protocol://host:port/db_name

Abhängig von der Datenbank-Engine kann jedoch ein anderes JDBC-URL-Format erforderlich sein. Dieses Format kann im Hinblick auf die Nutzung des Doppelpunkts (:) und Schrägstrichs (/) oder die Schlüsselwörter, mit denen Datenbanken angegeben werden, geringfügig abweichen.

Damit JDBC eine Verbindung mit dem Datenspeicher herstellen kann, ist ein db_name im Datenspeicher erforderlich. Der db_name wird verwendet, um eine Netzwerkverbindung mit dem bereitgestellten username und password herzustellen. Nachdem die Verbindung hergestellt wurde, kann AWS Glue auf andere Datenbanken im Datenspeicher zugreifen, um einen Crawler oder einen ETL-Auftrag auszuführen.

Die folgenden JDBC-URL-Beispiele veranschaulichen die Syntax für mehrere Datenbank-Engines.

  • Herstellen einer Verbindung mit einem Amazon-Redshift-Cluster-Datenspeicher mithilfe einer dev-Datenbank:

    jdbc:redshift://xxx.us-east-1.redshift.amazonaws.com:8192/dev

  • Herstellen einer Verbindung mit einem Amazon RDS for MySQL-Datenspeicher mithilfe einer employee-Datenbank:

    jdbc:mysql://xxx-cluster.cluster-xxx.us-east-1.rds.amazonaws.com:3306/employee

  • Herstellen einer Verbindung mit einem Amazon RDS for PostgreSQL-Datenspeicher mithilfe einer employee-Datenbank:

    jdbc:postgresql://xxx-cluster.cluster-xxx.us-east-1.rds.amazonaws.com:5432/employee

  • Herstellen einer Verbindung mit einem Amazon RDS for Oracle-Datenspeicher mithilfe eines employee-Servicenamens:

    jdbc:oracle:thin://@xxx-cluster.cluster-xxx.us-east-1.rds.amazonaws.com:1521/employee

    Die Syntax für Amazon RDS for Oracle kann das folgende Muster aufweisen: Ersetzen Sie in diesen Mustern Host, Port, service_name und SID durch eigene Informationen.

    • jdbc:oracle:thin://@host:port/service_name

    • jdbc:oracle:thin://@host:port:SID

  • Eine Verbindung mit einem Amazon RDS for Microsoft SQL Server-Datenspeicher mit einer employee-Datenbank herstellen:

    jdbc:sqlserver://xxx-cluster.cluster-xxx.us-east-1.rds.amazonaws.com:1433;databaseName=employee

    Die Syntax für Amazon RDS for SQL Server kann das folgende Muster aufweisen: Ersetzen Sie in diesen Mustern server_name, Port und db_name durch eigene Informationen.

    • jdbc:sqlserver://server_name:port;database=db_name

    • jdbc:sqlserver://server_name:port;databaseName=db_name

  • Geben Sie für die Verbindung zu einer Amazon Aurora PostgreSQL-Instance der employee-Datenbank den Endpunkt für die Datenbank-Instance, den Port und den Datenbanknamen an:

    jdbc:postgresql://employee_instance_1.xxxxxxxxxxxx.us-east-2.rds.amazonaws.com:5432/employee

  • Geben Sie für die Verbindung zu einem Amazon RDS for MariaDB-Datenspeicher mit einer employee-Datenbank den Endpunkt für die Datenbank-Instance, den Port und den Datenbanknamen an:

    jdbc:mysql://xxx-cluster.cluster-xxx.aws-region.rds.amazonaws.com:3306/employee

  • Warnung

    Snowflake-JDBC-Verbindungen werden nur von AWS Glue-Crawlern unterstützt. Verwenden Sie bei der Verwendung des Snowflake-Konnektors in AWS Glue-Aufträgen den Snowflake-Verbindungstyp.

    Geben Sie zum Herstellen einer Verbindung mit einer Snowflake-Instance der sample-Datenbank den Endpunkt für die Snowflake-Instance, den Benutzer, den Datenbanknamen und den Rollennamen an. Sie können optional den warehouse-Parameter hinzufügen.

    jdbc:snowflake://account_name.snowflakecomputing.com/?user=user_name&db=sample&role=role_name&warehouse=warehouse_name

    Wichtig

    Bei Snowflake-Verbindungen über JDBC wird die Reihenfolge der Parameter in der URL erzwungen und muss wie folgt geordnet werden: user, db, role_name und warehouse.

  • Um eine Verbindung zu einer Snowflake-Instance der sample-Datenbank mit einem privaten Link AWS herzustellen, geben Sie die Snowflake-JDBC-URL wie folgt an:

    jdbc:snowflake://account_name.region.privatelink.snowflakecomputing.com/?user=user_name&db=sample&role=role_name&warehouse=warehouse_name

Username
Anmerkung

Wir empfehlen Ihnen, ein AWS-Secret zu verwenden, um Verbindungsanmeldeinformationen zu speichern, statt Ihren Benutzernamen und Ihr Passwort direkt anzugeben. Weitere Informationen finden Sie unter Speichern von Verbindungsinformationen in AWS Secrets Manager.

Geben Sie einen Benutzernamen ein, der über die Berechtigung für den Zugriff auf den JDBC-Datenspeicher verfügt.

Passwort

Geben Sie das Passwort für den Benutzernamen ein, der über Zugriffsberechtigungen für den JDBC-Datenspeicher verfügt.

Port

Geben Sie den Port ein, der in der JDBC-URL verwendet wird, um eine Verbindung mit einer Amazon-RDS-Oracle-Instance herzustellen. Dieses Feld wird nur angezeigt, wenn Require SSL connection (SSL-Verbindung anfordern) für eine Amazon-RDS-Oracle-Instance ausgewählt ist.

VPC

Wählen Sie den Namen der Virtual Private Cloud (VPC) aus, die den Datenspeicher enthält. Die AWS Glue-Konsole listet alle VPCs für die aktuelle Region auf.

Wichtig

Wenn Sie über eine JDBC-Verbindung arbeiten, die außerhalb von AWS gehostet wird, beispielsweise mit Daten von Snowflake, sollte Ihre VPC über ein NAT-Gateway verfügen, das den Datenverkehr in öffentliche und private Subnetze aufteilt. Das öffentliche Subnetz wird für die Verbindung zur externen Quelle verwendet, und das interne Subnetz wird für die Verarbeitung durch AWS Glue verwendet. Informationen zum Konfigurieren Ihrer Amazon VPC für externe Verbindungen finden Sie unter Herstellen einer Verbindung mit dem Internet oder anderen Netzwerken mithilfe von NAT-Geräten und Einrichten von Amazon VPC für JDBC-Verbindungen zu Amazon-RDS-Datenspeichern von AWS Glue.

Subnetz

Wählen Sie das Subnetz in der VPC aus, die den Datenspeicher enthält. Die AWS Glue-Konsole listet alle Subnetze für den Datenspeicher in Ihrer VPC auf.

Sicherheitsgruppen

Wählen Sie die Sicherheitsgruppen aus, die mit Ihrem Datenspeicher verknüpft sind. AWS Glue erfordert eine oder mehrere Sicherheitsgruppen mit einer eingehenden Quellregel, die es AWS Glue erlaubt, eine Verbindung herzustellen. In der AWS Glue-Konsole werden alle Sicherheitsgruppen aufgeführt, die über eingehenden Zugriff auf Ihre VPC verfügen. AWS Glue ordnet diese Sicherheitsgruppen der Elastic Network-Schnittstelle zu, die mit Ihrem VPC-Subnetz verbunden ist.

Name der JDBC-Treiberklasse – optional

Geben Sie den Namen der benutzerdefinierten JDBC-Treiberklasse an:

  • Postgres – org.postgresql.Driver


  • 
 MySQL – com.mysql.jdbc.Driver, com.mysql.cj.jdbc.Driver


  • 
 Redshift – com.amazon.redshift.jdbc.Driver, com.amazon.redshift.jdbc42.Driver 


  • 
 Oracle – oracle.jdbc.driver.OracleDriver


  • 
 SQL Server – com.microsoft.sqlserver.jdbc.SQLServerDriver


JDBC-Treiber-S3-Pfad – optional

Geben Sie den Amazon-S3-Speicherort für den benutzerdefinierten JDBC-Treiber an. Dies ist ein absoluter Pfad zu einer .jar-Datei. Wenn Sie Ihre eigenen JDBC-Treiber bereitstellen möchten, um eine Verbindung zu Ihren Datenquellen für Ihre vom Crawler unterstützten Datenbanken herzustellen, können Sie Werte für Parameter customJdbcDriverS3Path und customJdbcDriverClassName angeben.
 Die Verwendung eines vom Kunden bereitgestellten JDBC-Treibers ist auf das erforderliche Erforderliche Verbindungseigenschaften beschränkt.

AWS Glue-Verbindungseigenschaften von MongoDB und MongoDB Atlas

Im Folgenden finden Sie zusätzliche Eigenschaften für den MongoDB- oder MongoDB-Atlas-Verbindungstyp.

MongoDB-URL

Geben Sie die URL für Ihren MongoDB- oder MongoDB-Atlas-Datenspeicher ein:

  • Für MongoDB: mongodb://host:port/database. Der Host kann ein Hostname, eine IP-Adresse oder ein UNIX-Domain-Socket sein. Wenn die Verbindungszeichenfolge keinen Port angibt, wird der standardmäßige MongoDB-Port 27017 verwendet.

  • Für MongoDB Atlas: mongodb+srv://server.example.com/database. Der Host kann ein Hostname sein, der im Folgenden einem DNS-SRV-Eintrag entspricht. Das SRV-Format benötigt keinen Port und verwendet den standardmäßigen MongoDB-Port 27017.

Username
Anmerkung

Wir empfehlen Ihnen, ein AWS-Secret zu verwenden, um Verbindungsanmeldeinformationen zu speichern, statt Ihren Benutzernamen und Ihr Passwort direkt anzugeben. Weitere Informationen finden Sie unter Speichern von Verbindungsinformationen in AWS Secrets Manager.

Geben Sie einen Benutzernamen ein, der über die Berechtigung für den Zugriff auf den JDBC-Datenspeicher verfügt.

Passwort

Geben Sie das Passwort für den Benutzernamen ein, der über Zugriffsberechtigungen für den MongoDB- oder MongoDB-Atlas-Datenspeicher verfügt.

Salesforce-Verbindungseigenschaften

Im Folgenden finden Sie zusätzliche Eigenschaften für den Salesforce-Verbindungstyp.

  • ENTITY_NAME (Zeichenfolge) – (Erforderlich) Zum Lesen/Schreiben verwendet. Der Name Ihres Objekts in Salesforce.

  • API_VERSION (Zeichenfolge) – (Erforderlich) Zum Lesen/Schreiben verwendet. Version der Salesforce-REST-API, die Sie verwenden möchten.

  • SELECTED_FIELDS(Liste<Zeichenfolge>) – Standard: leer(SELECT *). Zum Lesen verwendet. Spalten, die Sie für das Objekt auswählen möchten.

  • FILTER_PREDICATE(Zeichenfolge) – Standard: leer. Zum Lesen verwendet. Muss das Spark-SQL-Format aufweisen.

  • QUERY(Zeichenfolge) – Standard: leer. Zum Lesen verwendet. Vollständige Spark-SQL-Abfrage.

  • PARTITION_FIELD(Zeichenfolge) – Zum Lesen verwendet. Feld, das zur Partitionierung der Abfrage verwendet werden soll.

  • LOWER_BOUND(Zeichenfolge) – Zum Lesen verwendet. Ein inklusiver Untergrenzwert des ausgewählten Partitionsfelds.

  • UPPER_BOUND(Zeichenfolge) – Zum Lesen verwendet. Ein exklusiver Obergrenzwert des ausgewählten Partitionsfelds.

  • NUM_PARTITIONS(Ganzzahl) – Standard: 1. Zum Lesen verwendet. Anzahl der zu lesenden Partitionen.

  • IMPORT_DELETED_RECORDS(Zeichenfolge) – (Standard): FALSE. Zum Lesen verwendet. Zum Abfrage der Löschdatensätze während der Abfrage.

  • WRITE_OPERATION(Zeichenfolge) – Standard: INSERT. Zum Schreiben verwendet. Wert muss INSERT, UPDATE, UPSERT, DELETE sein.

  • ID_FIELD_NAMES(Zeichenfolge) – Standard: null. Nur für UPSERT verwendet.

Snowflake-Verbindung

Die folgenden Eigenschaften werden verwendet, um eine Snowflake-Verbindung einzurichten, die in AWS Glue-ETL-Aufträgen verwendet wird. Verwenden Sie beim Crawling von Snowflake eine JDBC-Verbindung.

Snowflake-URL

Die URL Ihres Snowflake-Endpunktes. Weitere Informationen zu Snowflake-Endpunkt-URLs finden Sie unter Herstellen einer Verbindung mit Ihren Konten in der Snowflake-Dokumentation.

AWS Secret

Der Name des Secrets eines Secrets in AWS Secrets Manager. AWS Glue stellt mithilfe der sfUser- und sfPassword-Schlüsseln Ihres Secrets eine Verbindung zu Snowflake her.

Snowflake-Rolle (optional)

Beim Herstellen der Verbindung wird eine AWS Glue-Snowflake-Sicherheitsrolle verwendet.

Verwenden Sie die folgenden Eigenschaften, wenn Sie eine Verbindung zu einem Snowflake-Endpunkt konfigurieren, der in Amazon VPC mithilfe von AWS PrivateLink gehostet wird.

VPC

Wählen Sie den Namen der Virtual Private Cloud (VPC) aus, die den Datenspeicher enthält. Die AWS Glue-Konsole listet alle VPCs für die aktuelle Region auf.

Subnetz

Wählen Sie das Subnetz in der VPC aus, die den Datenspeicher enthält. Die AWS Glue-Konsole listet alle Subnetze für den Datenspeicher in Ihrer VPC auf.

Sicherheitsgruppen

Wählen Sie die Sicherheitsgruppen aus, die mit Ihrem Datenspeicher verknüpft sind. AWS Glue erfordert eine oder mehrere Sicherheitsgruppen mit einer eingehenden Quellregel, die es AWS Glue erlaubt, eine Verbindung herzustellen. In der AWS Glue-Konsole werden alle Sicherheitsgruppen aufgeführt, die über eingehenden Zugriff auf Ihre VPC verfügen. AWS Glue ordnet diese Sicherheitsgruppen der Elastic Network-Schnittstelle zu, die mit Ihrem VPC-Subnetz verbunden ist.

Vertica-Verbindung

Verwenden Sie die folgenden Eigenschaften, um eine Vertica-Verbindung für AWS Glue-ETL-Aufträge einzurichten.

Vertica-Host

Der Hostname Ihrer Vertica-Installation.

Vertica-Port

Der Port, über den Ihre Vertica-Installation verfügbar ist.

AWS-Secret

Der Secret-Name eines Secrets in AWS Secrets Manager. AWS Glue stellt mithilfe der Schlüssel Ihres Secrets eine Verbindung zu Vertica her.

Verwenden Sie die folgenden Eigenschaften, wenn Sie eine Verbindung zu einem Vertica-Endpunkt konfigurieren, der in Amazon VPC gehostet wird.

VPC

Wählen Sie den Namen der Virtual Private Cloud (VPC) aus, die den Datenspeicher enthält. Die AWS Glue-Konsole listet alle VPCs für die aktuelle Region auf.

Subnetz

Wählen Sie das Subnetz in der VPC aus, die den Datenspeicher enthält. Die AWS Glue-Konsole listet alle Subnetze für den Datenspeicher in Ihrer VPC auf.

Sicherheitsgruppen

Wählen Sie die Sicherheitsgruppen aus, die mit Ihrem Datenspeicher verknüpft sind. AWS Glue erfordert eine oder mehrere Sicherheitsgruppen mit einer eingehenden Quellregel, die es AWS Glue erlaubt, eine Verbindung herzustellen. In der AWS Glue-Konsole werden alle Sicherheitsgruppen aufgeführt, die über eingehenden Zugriff auf Ihre VPC verfügen. AWS Glue ordnet diese Sicherheitsgruppen der Elastic Network-Schnittstelle zu, die mit Ihrem VPC-Subnetz verbunden ist.

SAP-HANA-Verbindung

Verwenden Sie die folgenden Eigenschaften, um eine SAP-HANA-Verbindung für AWS Glue-ETL-Aufträge einzurichten.

SAP-HANA-URL

EINE SAP-JDBC-URL.

SAP-HANA-JDBC-URLs haben das Format jdbc:sap://saphanaHostname:saphanaPort/?databaseName=saphanaDBname,ParameterName=ParameterValue.

AWS Glue benötigt die folgenden JDBC-URL-Parameter:

  • databaseName – Eine Standarddatenbank in SAP HANA, mit der eine Verbindung hergestellt werden kann.

AWS-Secret

Der Secret-Name eines Secrets in AWS Secrets Manager. AWS Glue stellt mithilfe der Schlüssel Ihres Secrets eine Verbindung zu SAP HANA her.

Verwenden Sie die folgenden Eigenschaften, wenn Sie eine Verbindung zu einem SAP-HANA-Endpunkt konfigurieren, der in Amazon VPC gehostet wird:

VPC

Wählen Sie den Namen der Virtual Private Cloud (VPC) aus, die den Datenspeicher enthält. Die AWS Glue-Konsole listet alle VPCs für die aktuelle Region auf.

Subnetz

Wählen Sie das Subnetz in der VPC aus, die den Datenspeicher enthält. Die AWS Glue-Konsole listet alle Subnetze für den Datenspeicher in Ihrer VPC auf.

Sicherheitsgruppen

Wählen Sie die Sicherheitsgruppen aus, die mit Ihrem Datenspeicher verknüpft sind. AWS Glue erfordert eine oder mehrere Sicherheitsgruppen mit einer eingehenden Quellregel, die es AWS Glue erlaubt, eine Verbindung herzustellen. In der AWS Glue-Konsole werden alle Sicherheitsgruppen aufgeführt, die über eingehenden Zugriff auf Ihre VPC verfügen. AWS Glue ordnet diese Sicherheitsgruppen der Elastic Network-Schnittstelle zu, die mit Ihrem VPC-Subnetz verbunden ist.

Azure-SQL-Verbindung

Verwenden Sie die folgenden Eigenschaften, um eine Azure-SQL-Verbindung für AWS Glue-ETL-Aufträge einzurichten.

Azure-SQL-URL

Die JDBC-URL eines Azure-SQL-Endpunkts.

Die URL muss das folgende Format aufweisen: jdbc:sqlserver://databaseServerName:databasePort;databaseName=azuresqlDBname;.

AWS Glue benötigt die folgenden URL-Eigenschaften:

  • databaseName – Eine Standarddatenbank in Azure SQL, mit der eine Verbindung hergestellt werden kann.

Weitere Informationen zu JDBC-URLs für Azure SQL Managed Instances finden Sie in der Microsoft-Dokumentation.

AWS-Secret

Der Secret-Name eines Secrets in AWS Secrets Manager. AWS Glue stellt mithilfe der Schlüssel Ihres Secrets eine Verbindung zu Azure SQL her.

Teradata-Vantage-Verbindung

Verwenden Sie die folgenden Eigenschaften, um eine Teradata-Vantage-Verbindung für AWS Glue-ETL-Aufträge einzurichten.

Teradata-URL

Um eine Verbindung zu einer Teradata-Instance herzustellen, geben Sie den Hostnamen der Datenbank-Instance und die entsprechenden Teradata-Parameter an:

jdbc:teradata://teradataHostname/ParameterName=ParameterValue,ParameterName=ParameterValue.

AWS Glue unterstützt die folgenden JDBC-URL-Abfrageparameter:

  • DATABASE_NAME – Eine Standarddatenbank in Teradata, mit der eine Verbindung hergestellt werden kann.

  • DBS_PORT – Gibt den Teradata-Port an, falls dieser vom Standardwert abweicht.

AWS-Secret

Der Secret-Name eines Secrets in AWS Secrets Manager. AWS Glue stellt mithilfe der Schlüssel Ihres Secrets eine Verbindung zu Teradata Vantage her.

Verwenden Sie die folgenden Eigenschaften, wenn Sie eine Verbindung zu einem Teradata-Vantage-Endpunkt konfigurieren, der in Amazon VPC gehostet wird:

VPC

Wählen Sie den Namen der Virtual Private Cloud (VPC) aus, die den Datenspeicher enthält. Die AWS Glue-Konsole listet alle VPCs für die aktuelle Region auf.

Subnetz

Wählen Sie das Subnetz in der VPC aus, die den Datenspeicher enthält. Die AWS Glue-Konsole listet alle Subnetze für den Datenspeicher in Ihrer VPC auf.

Sicherheitsgruppen

Wählen Sie die Sicherheitsgruppen aus, die mit Ihrem Datenspeicher verknüpft sind. AWS Glue erfordert eine oder mehrere Sicherheitsgruppen mit einer eingehenden Quellregel, die es AWS Glue erlaubt, eine Verbindung herzustellen. In der AWS Glue-Konsole werden alle Sicherheitsgruppen aufgeführt, die über eingehenden Zugriff auf Ihre VPC verfügen. AWS Glue ordnet diese Sicherheitsgruppen der Elastic Network-Schnittstelle zu, die mit Ihrem VPC-Subnetz verbunden ist.

OpenSearch-Service-Verbindung

Verwenden Sie die folgenden Eigenschaften, um eine OpenSearch-Service-Verbindung für AWS Glue-ETL-Aufträge einzurichten.

Domains-Endpunkte

Ein Amazon-OpenSearch-Service-Domain-Endpunkt hat das folgende Standardformat: https://search-domainName-unstructuredIdContent.region.es.amazonaws.com. Weitere Informationen zum Erkennen Ihres Domain-Endpunkts finden Sie unter Erstellen und Verwalten von Amazon-OpenSearch-Service-Domains in der Dokumentation von Amazon OpenSearch Service.

Port

Der offene Port im Endpunkt.

AWS-Secret

Der Secret-Name eines Secrets in AWS Secrets Manager. AWS Glue stellt mithilfe der Schlüssel Ihres Secrets eine Verbindung zu OpenSearch Service her.

Verwenden Sie die folgenden Eigenschaften, wenn Sie eine Verbindung zu einem OpenSearch-Service-Endpunkt konfigurieren, der in Amazon VPC gehostet wird:

VPC

Wählen Sie den Namen der Virtual Private Cloud (VPC) aus, die den Datenspeicher enthält. Die AWS Glue-Konsole listet alle VPCs für die aktuelle Region auf.

Subnetz

Wählen Sie das Subnetz in der VPC aus, die den Datenspeicher enthält. Die AWS Glue-Konsole listet alle Subnetze für den Datenspeicher in Ihrer VPC auf.

Sicherheitsgruppen

Wählen Sie die Sicherheitsgruppen aus, die mit Ihrem Datenspeicher verknüpft sind. AWS Glue erfordert eine oder mehrere Sicherheitsgruppen mit einer eingehenden Quellregel, die es AWS Glue erlaubt, eine Verbindung herzustellen. In der AWS Glue-Konsole werden alle Sicherheitsgruppen aufgeführt, die über eingehenden Zugriff auf Ihre VPC verfügen. AWS Glue ordnet diese Sicherheitsgruppen der Elastic Network-Schnittstelle zu, die mit Ihrem VPC-Subnetz verbunden ist.

Azure-Cosmos-Verbindung

Verwenden Sie die folgenden Eigenschaften, um eine Azure-Cosmos-Verbindung für AWS Glue-ETL-Aufträge einzurichten.

Endpunkt-URI für das Azure-Cosmos-DB-Konto

Der für die Verbindung mit Azure Cosmos verwendete Endpunkt. Weitere Informationen finden Sie in der Azure-Dokumentation.

AWS-Secret

Der Secret-Name eines Secrets in AWS Secrets Manager. AWS Glue stellt mithilfe der Schlüssel Ihres Secrets eine Verbindung zu Azure Cosmos her.

AWS Glue-SSL-Verbindungseigenschaften

Im Folgenden finden Sie Details zur Eigenschaft SSL-Verbindung erforderlich.

Wenn Sie keine SSL-Verbindung benötigen, ignoriert AWS Glue Fehler, bei SSL-Verwendung, um eine Verbindung mit einer Datenbank zu verschlüsseln. In der Dokumentation Ihrer Datenbank finden Sie Konfigurationsanweisungen. Wenn Sie diese Option auswählen, schlagen die Auftragsausführungs-, Crawler- oder ETL-Anweisungen in einem Entwicklungsendpunkt fehl, wenn sich AWS Glue nicht verbinden kann.

Anmerkung

Snowflake unterstützt standardmäßig eine SSL-Verbindung, daher gilt diese Eigenschaft nicht für Snowflake.

Diese Option wird clientseitig auf AWS Glue validiert. Für JDBC-Verbindungen stellt AWS Glue lediglich eine Verbindung über SSL mit Zertifikats- und Hostnamenvalidierung her. SSL-Verbindungsunterstützung ist verfügbar für:

  • Oracle Database

  • Microsoft SQL Server

  • PostgreSQL

  • Amazon Redshift

  • MySQL (nur für Amazon-RDS-Instances)

  • Amazon Aurora MySQL (nur für Amazon-RDS-Instances)

  • Amazon Aurora PostgreSQL (nur für Amazon-RDS-Instances)

  • Kafka umfasst Amazon Managed Streaming for Apache Kafka

  • MongoDB

Anmerkung

Um einem Amazon-RDS-Oracle--Datenspeicher die Verwendung von Require SSL connection (SSL-Verbindung anfordern) zu ermöglichen, müssen Sie eine Optionsgruppe erstellen und an die Oracle-Instance anfügen.

  1. Melden Sie sich bei der AWS Management Console an und öffnen Sie die Amazon-RDS-Konsole unter https://console.aws.amazon.com/rds/.

  2. Fügen Sie eine Optionsgruppe zur Amazon-RDS-Oracle-Instance hinzu. Weitere Informationen zum Hinzufügen einer Optionsgruppe auf der Amazon-RDS-Konsole finden Sie unter Creating an Option Group (Erstellen einer Optionsgruppe).

  3. Hinzufügen einer Option zur Optionsgruppe für SSL. Der Port, den Sie für SSL angeben, wird später verwendet, wenn Sie eine AWS Glue-JDBC-Verbindungs-URL für die Amazon-RDS-Oracle-Instance erstellen. Weitere Informationen zum Hinzufügen einer Option auf der Amazon-RDS-Konsole finden Sie unter Adding an Option to an Option Group (Hinzufügen einer Option zu einer Optionsgruppe) im Benutzerhandbuch für Amazon RDS. Weitere Informationen zu den Oracle-SSL-Optionen finden Sie unter Oracel SSL im Amazon RDS-Benutzerhandbuch.

  4. Erstellen Sie eine Verbindung zur Amazon-RDS-Oracle-Instance auf der AWS Glue-Konsole. Wählen Sie in der Verbindungsdefinition die Option SSL-Verbindung erforderlichaus. Geben Sie bei Bedarf den Port ein, den Sie in der Option Amazon RDS Oracle SSL verwendet haben.

Die folgenden zusätzlichen optionalen Eigenschaften sind verfügbar, wenn Require SSL connection (SSL-Verbindung erforderlich) für eine Verbindung ausgewählt ist.

Benutzerdefiniertes JDBC-Zertifikat in S3

Wenn Sie über ein Zertifikat verfügen, das Sie zurzeit für die SSL-Kommunikation mit Ihren On-Premises- oder Cloud-Datenbanken verwenden, können Sie dieses Zertifikat für SSL-Verbindungen zu AWS Glue-Datenquellen oder -Zielen verwenden. Geben Sie einen Amazon Simple Storage Service (Amazon S3)-Speicherort ein, der ein benutzerdefiniertes Stammzertifikat enthält. AWS Glue verwendet dieses Zertifikat, um eine SSL-Verbindung zur Datenbank herzustellen. AWS Glue verarbeitet nur X.509-Zertifikate. Das Zertifikat muss DER-codiert sein und im base64-PEM-Codierungsformat bereitgestellt werden.

Wenn dieses Feld leer bleibt, wird das Standardzertifikat verwendet.

Benutzerdefinierte JDBC-Zertifikatzeichenfolge

Geben Sie JDBC-Datenbank-Zertifikatinformationen ein. Diese Zeichenfolge wird für den Domainabgleich oder den Distinguished Name (DN)-Abgleich verwendet wird. Im Fall von Oracle Database entspricht die Zeichenfolge dem Parameter SSL_SERVER_CERT_DN im Sicherheitsabschnitt der Datei tnsnames.ora. Im Fall von Microsoft SQL Server wird diese Zeichenfolge als hostNameInCertificate verwendet.

Im Folgenden finden Sie ein Beispiel für den Oracle Database-Parameter SSL_SERVER_CERT_DN.

cn=sales,cn=OracleContext,dc=us,dc=example,dc=com
Speicherort des privaten CA-Zertifikats von Kafka

Wenn Sie über ein Zertifikat verfügen, das Sie zurzeit für die SSL-Kommunikation mit Ihrem Kafka-Datenspeicher verwenden, können Sie dieses Zertifikat mit Ihrer AWS Glue-Verbindung nutzen. Diese Option ist für Kafka-Datenspeicher erforderlich und optional für Amazon Managed Streaming for Apache Kafka-Datenspeicher. Geben Sie einen Amazon Simple Storage Service (Amazon S3)-Speicherort ein, der ein benutzerdefiniertes Stammzertifikat enthält. AWS Glue verwendet dieses Zertifikat, um eine SSL-Verbindung zur Kafka-Datenbank herzustellen. AWS Glue verarbeitet nur X.509-Zertifikate. Das Zertifikat muss DER-codiert sein und im base64-PEM-Codierungsformat bereitgestellt werden.

Zertifikatvalidierung überspringen

Aktivieren Sie das Kontrollkästchen Zertifikatsüberprüfung überspringen, um die Validierung des benutzerdefinierten Zertifikats durch AWS Glue zu überspringen. Wenn Sie sich für die Validierung entscheiden, validiert AWS Glue den Signaturalgorithmus und den Algorithmus des öffentlichen Schlüssels für das Zertifikat. Wenn das Zertifikat nicht validiert werden kann, schlägt die Ausführung aller ETL-Aufgaben oder Crawler fehl, die diese Verbindung verwenden.

Die einzigen zulässigen Signaturalgorithmen sind SHA256withRSA, SHA384withRSA oder SHA512withRSA. Die Schlüssellänge für den Algorithmus für den öffentlichen Schlüssel muss mindestens 2048 betragen.

Kafka-Client-Keystore-Speicherort

Der Amazon-S3-Speicherort der Client-Keystore-Datei für die clientseitige Kafka-Authentifizierung. Der Pfad muss in der Form s3://bucket/prefix/filename.jks vorliegen. Er muss mit dem Dateinamen und der Erweiterung .jks enden.

Passwort für den Kafka-Client-Keystore (optional)

Das Passwort für den Zugriff auf den bereitgestellten Keystore.

Passwort für den Kafka-Client-Schlüssel (optional)

Ein Keystore kann aus mehreren Schlüsseln bestehen, also ist dies das Passwort für den Zugriff auf den Clientschlüssel, der mit dem serverseitigen Kafka-Schlüssel verwendet werden soll.

Apache-Kafka-Verbindungseigenschaften für die Client-Authentifizierung

AWS Glue unterstützt das Simple Authentication and Security Layer (SASL)-Framework für die Authentifizierung, wenn Sie eine Apache-Kafka-Verbindung erstellen. Das SASL-Framework unterstützt verschiedene Authentifizierungsmechanismen und AWS Glue bietet die Protokolle SCRAM (Benutzername und Passwort), GSSAPI (Kerberos-Protokoll) und PLAIN.

Verwenden Sie AWS Glue Studio, um eine der folgenden Client-Authentifizierungsmethoden zu konfigurieren. Weitere Informationen finden Sie unter Erstellen von Verbindungen für Konnektoren im AWS Glue Studio-Benutzerhandbuch.

  • Keine – Keine Authentifizierung. Dies ist nützlich, wenn Sie eine Verbindung zu Testzwecken herstellen.

  • SASL/SCRAM-SHA-512 – Wenn Sie diese Authentifizierungsmethode wählen, können Sie Anmeldeinformationen zur Authentifizierung angeben. Es gibt zwei Optionen:

    • Verwenden von AWS Secrets Manager (empfohlen) – Wenn Sie diese Option auswählen, können Sie Ihren Benutzernamen und Ihr Passwort in AWS Secrets Manager speichern und AWS Glue bei Bedarf darauf zugreifen lassen. Geben Sie das Secret an, das die SSL- oder SASL-Authentifizierungsdaten speichert. Weitere Informationen finden Sie unter Speichern von Verbindungsinformationen in AWS Secrets Manager.

    • Geben Sie einen Benutzernamen und ein Passwort ein.

  • SASL/GSSAPI (Kerberos) – Wenn Sie diese Option auswählen, können Sie den Speicherort der Keytab-Datei, die krb5.conf-Datei auswählen und den Kerberos-Hauptnamen und den Kerberos-Servicenamen eingeben. Die keytab-Datei und die krb5.conf-Datei müssen sich an einem Amazon-S3-Speicherort befinden. Da MSK SASL/GSSAPI noch nicht unterstützt, ist diese Option nur für vom Kunden verwaltete Apache-Kafka-Cluster verfügbar. Weitere Informationen finden Sie unter MIT Kerberos-Dokumentation: Keytab.

  • SASL/PLAIN – Wählen Sie diese Authentifizierungsmethode, um Anmeldeinformationen zur Authentifizierung anzugeben. Es stehen zwei Optionen zur Verfügung:

    • Verwenden von AWS Secrets Manager (empfohlen) – Wenn Sie diese Option auswählen, können Sie Ihre Anmeldedaten im AWS Secrets Manager speichern und AWS Glue bei Bedarf darauf zugreifen lassen. Geben Sie das Secret an, das die SSL- oder SASL-Authentifizierungsdaten speichert.

    • Geben Sie Benutzername und Passwort direkt an.

  • SSL-Client-Authentifizierung – wenn Sie diese Option auswählen, können Sie den Speicherort des Kafka-Client-Keystores auswählen, indem Sie Amazon S3 durchsuchen. Optional können Sie das Kennwort für den Kafka-Client-Keystore und das Kafka-Client-Schlüsselkennwort eingeben.

Google BigQuery-Verbindung

Die folgenden Eigenschaften werden verwendet, um eine Google BigQuery-Verbindung einzurichten, die in AWS Glue-ETL-Aufträgen verwendet wird. Weitere Informationen finden Sie unter BigQuery-Verbindungen.

AWS-Secret

Der Secret-Name eines Secrets inAWS Secrets Manager. AWS Glue ETL-Aufträge stellen mithilfe des credentials-Schlüssels Ihres Secrets eine Verbindung zu Google BigQuery her.

Vertica-Verbindung

Die folgenden Eigenschaften werden verwendet, um eine Vertica-Verbindung einzurichten, die in AWS Glue-ETL-Aufträgen verwendet wird. Weitere Informationen finden Sie unter Vertica-Verbindungen.