Verwenden von benutzerdefinierten Connectors und Verbindungen mit AWS Glue Studio - AWS Glue

Verwenden von benutzerdefinierten Connectors und Verbindungen mit AWS Glue Studio

AWS Glue bietet integrierte Unterstützung der gängigsten Datenspeicher (wie Amazon Redshift, Amazon Aurora, Microsoft SQL Server, MySQL, MongoDB und PostgreSQL) über JDBC-Verbindungen. Mit AWS Glue können Sie auch benutzerdefinierte JDBC-Treiber in Ihren ETL-Aufträgen (Extract, Transform, Load) verwenden. Für Datenspeicher, die nicht nativ unterstützt werden, z. B. SaaS Anwendungen, können Sie Connectors verwenden.

Ein Connector ist ein optionales Codepaket für den Zugriff auf Datenspeicher in AWS Glue Studio. Sie können mehrere Connectors abonnieren, die in AWS Marketplace angeboten werden.

Beim Erstellen von ETL-Aufträgen können Sie einen nativ unterstützten Datenspeicher, einen Connector aus AWS Marketplace oder Ihre eigenen benutzerdefinierten Connectors verwenden. Wenn Sie einen Connector verwenden, müssen Sie zunächst eine Verbindung für ihn erstellen. Eine Verbindung enthält die Eigenschaften, die für das Verbinden mit einem bestimmten Datenspeicher erforderlich sind. Sie verwenden die Verbindung mit Ihren Datenquellen und Datenzielen im ETL-Auftrag. Connectors und Verbindungen ermöglichen zusammen den Zugriff auf die Datenspeicher.

Die folgenden Verbindungen sind verfügbar, wenn Verbindungen für Konnektoren erstellt werden:

  • Amazon Aurora – eine skalierbare, leistungsstarke relationale Datenbank-Engine mit integrierter Sicherheit, Sicherung und Wiederherstellung sowie speicherinterner Beschleunigung.

  • Amazon DocumentDB – ein skalierbarer, hochverfügbarer und vollständig verwalteter Dokumentdatenbankservice, der MongoDB- und SQL-APIs unterstützt.

  • Amazon Redshift – ein skalierbarer, hochverfügbarer und vollständig verwalteter Dokumentdatenbankservice, der MongoDB- und SQL-APIs unterstützt.

  • Azure SQL – ein cloudbasierter relationaler Datenbankservice von Microsoft Azure, der skalierbare, zuverlässige und sichere Datenspeicher- und Verwaltungsfunktionen bietet.

  • Cosmos DB – ein weltweit verteilter Cloud-Datenbankservice von Microsoft Azure, der skalierbare, leistungsstarke Datenspeicher- und Abfragefunktionen bietet.

  • Google BigQuery – ein Serverless-Cloud-Data-Warehouse zum Ausführen schneller SQL-Abfragen für große Datensätze.

  • JDBC – ein relationales Datenbankmanagementsystem (RDBMS), das eine Java-API für die Verbindung und Interaktion mit Datenverbindungen verwendet.

  • Kafka – eine Open-Source-Stream-Verarbeitungsplattform, die für Datenstreaming und Messaging in Echtzeit verwendet wird.

  • MariaDB – ein von der Community entwickelter Fork von MySQL, der verbesserte Leistung, Skalierbarkeit und Funktionen bietet.

  • MongoDB – eine plattformübergreifende dokumentenorientierte Datenbank, die eine hohe Skalierbarkeit, Flexibilität und Leistung bietet.

  • MongoDB Atlas – ein cloudbasiertes DBaaS-Angebot (Database as a Service) von MongoDB, das die Verwaltung und Skalierung von MongoDB-Bereitstellungen vereinfacht.

  • Microsoft SQL Server – ein relationales Datenbankmanagementsystem (RDBMS) von Microsoft, das robuste Datenspeicher-, Analyse- und Berichtsfunktionen bietet.

  • Mixpanel – eine Analyseplattform, die Unternehmen dabei hilft, zu analysieren, wie Benutzer mit ihren Websites, mobilen Anwendungen und anderen digitalen Produkten interagieren.

  • MySQL – ein relationales Open-Source-Datenbankmanagementsystem (RDBMS), das häufig in Webanwendungen verwendet wird und für seine Zuverlässigkeit und Skalierbarkeit bekannt ist.

  • Netzwerk – Eine Netzwerkdatenquelle stellt eine über das Netzwerk zugängliche Ressource oder einen Service dar, auf den über eine Datenintegrationsplattform zugegriffen werden kann.

  • OpenSearch – Eine OpenSearch-Datenquelle ist eine Anwendung, mit der OpenSearch eine Verbindung herstellen und aus der Daten aufgenommen werden können.

  • Oracle – ein relationales Datenbankmanagementsystem (RDBMS) von Oracle, das robuste Datenspeicher-, Analyse- und Berichtsfunktionen bietet.

  • PostgreSQL – ein relationales Open-Source-Datenbankmanagementsystem (RDBMS), das robuste Datenspeicher-, Analyse- und Berichtsfunktionen bietet.

  • Salesforce – Salesforce bietet Software für das Kundenbeziehungsmanagement (CRM), die Sie bei Vertrieb, Kundenservice, E-Commerce und vielem mehr unterstützt. Wenn Sie ein Salesforce-Benutzer sind, können Sie AWS Glue mit Ihrem Salesforce-Konto verbinden. Anschließend können Sie Salesforce als Datenquelle oder Ziel in Ihren ETL-Aufträgen verwenden. Führen Sie diese Aufträge aus, um Daten zwischen Salesforce und AWS-Services oder anderen unterstützten Anwendungen zu übertragen.

  • SAP HANA – eine In-Memory-Datenbank und Analyseplattform, die schnelle Datenverarbeitung, fortschrittliche Analysen und Datenintegration in Echtzeit ermöglicht.

  • Snowflake – ein cloudbasiertes Data Warehouse, das skalierbare, leistungsstarke Datenspeicher- und Analyseservices bietet.

  • Teradata – ein relationales Datenbankmanagementsystem (RDBMS), das leistungsstarke Datenspeicher-, Analyse- und Berichtsfunktionen bietet.

  • Vertica – ein spaltenorientiertes analytisches Data Warehouse, das für Big-Data-Analytik entwickelt wurde und schnelle Abfrageleistung, erweiterte Analysen und Skalierbarkeit bietet.