Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Migrieren Sie Workloads von AWS Data Pipeline zu Amazon MWAA
AWS hat den AWS Data Pipeline Dienst 2012 gestartet. Zu dieser Zeit wünschten sich Kunden einen Service, mit dem sie eine Vielzahl von Rechenoptionen nutzen konnten, um Daten zwischen verschiedenen Datenquellen zu verschieben. Da sich die Anforderungen an die Datenübertragung im Laufe der Zeit geändert haben, haben sich auch die Lösungen für diese Anforderungen geändert. Sie haben jetzt die Möglichkeit, die Lösung zu wählen, die Ihren Geschäftsanforderungen am besten entspricht. Sie können Ihre Workloads auf jeden der folgenden AWS Dienste migrieren:
-
Verwenden Sie Amazon Managed Workflows for Apache Airflow (Amazon MWAA), um die Workflow-Orchestrierung für Apache Airflow zu verwalten.
-
Verwenden Sie Step Functions, um Workflows zwischen mehreren AWS-Services zu orchestrieren.
-
Wird verwendet AWS Glue , um Apache Spark-Anwendungen auszuführen und zu orchestrieren.
Welche Option Sie wählen, hängt von Ihrer aktuellen Arbeitslast ab AWS Data Pipeline. In diesem Thema wird erklärt, wie Sie von AWS Data Pipeline zu Amazon MWAA migrieren.
Themen
Wählen Sie Amazon MWAA
Amazon Managed Workflows for Apache Airflow (Amazon MWAA) ist ein verwalteter Orchestrierungsservice für Apache Airflow, mit dem Sie end-to-end Daten-Pipelines in der Cloud in großem Umfang einrichten und betreiben können. Apache Airflow
Im Folgenden werden einige der Vorteile einer Migration von Amazon AWS Data Pipeline MWAA hervorgehoben:
-
Verbesserte Skalierbarkeit und Leistung — Amazon MWAA bietet ein flexibles und skalierbares Framework für die Definition und Ausführung von Workflows. Dies ermöglicht es Benutzern, große und komplexe Workflows mühelos zu handhaben und Funktionen wie dynamische Aufgabenplanung, datengesteuerte Workflows und Parallelität zu nutzen.
-
Verbesserte Überwachung und Protokollierung — Amazon MWAA lässt sich in Amazon integrieren CloudWatch , um die Überwachung und Protokollierung Ihrer Workflows zu verbessern. Amazon MWAA sendet automatisch Systemmetriken und Protokolle an. CloudWatch Das bedeutet, dass Sie den Fortschritt und die Leistung Ihrer Workflows in Echtzeit verfolgen und auftretende Probleme identifizieren können.
-
Bessere Integrationen mit AWS Diensten und Software von Drittanbietern — Amazon MWAA lässt sich in eine Vielzahl anderer AWS Dienste wie Amazon S3 und Amazon Redshift sowie in Software von Drittanbietern wie DBT
, Snowflake und Databricks integrieren. AWS Glue Auf diese Weise können Sie Daten zwischen verschiedenen Umgebungen und Diensten verarbeiten und übertragen. -
Open-Source-Daten-Pipeline-Tool — Amazon MWAA nutzt dasselbe Open-Source-Produkt Apache Airflow, mit dem Sie vertraut sind. Apache Airflow ist ein speziell entwickeltes Tool, das für alle Aspekte des Daten-Pipeline-Managements entwickelt wurde, einschließlich Aufnahme, Verarbeitung, Übertragung, Integritätstests, Qualitätsprüfungen und Sicherstellung der Datenherkunft.
-
Moderne und flexible Architektur — Amazon MWAA nutzt Containerisierung und Cloud-native, serverlose Technologien. Das bedeutet mehr Flexibilität und Portabilität sowie eine einfachere Bereitstellung und Verwaltung Ihrer Workflow-Umgebungen.
Architektur und Konzeptkartierung
AWS Data Pipeline und Amazon MWAA haben unterschiedliche Architekturen und Komponenten, die sich auf den Migrationsprozess und die Art und Weise, wie Workflows definiert und ausgeführt werden, auswirken können. In diesem Abschnitt werden die Architektur und die Komponenten für beide Dienste beschrieben und einige der wichtigsten Unterschiede hervorgehoben.
AWS Data Pipeline Sowohl Amazon MWAA als auch Amazon sind vollständig verwaltete Services. Wenn Sie Ihre Workloads zu Amazon MWAA migrieren, müssen Sie sich möglicherweise mit neuen Konzepten vertraut machen, um Ihre bestehenden Workflows mit Apache Airflow zu modellieren. Sie müssen sich jedoch nicht um die Infrastruktur kümmern, Worker patchen und Betriebssystem-Updates verwalten.
In der folgenden Tabelle werden die wichtigsten Konzepte AWS Data Pipeline denen in Amazon MWAA zugeordnet. Verwenden Sie diese Informationen als Ausgangspunkt für die Erstellung eines Migrationsplans.
| Konzept | AWS Data Pipeline | Amazon MWAA |
|---|---|---|
| Definition der Pipeline | AWS Data Pipeline verwendet eine JSON-basierte Konfigurationsdatei, die den Workflow definiert. | Amazon MWAA verwendet Python-basierte Directed Acyclic Graphs |
| Umgebung zur Pipeline-Ausführung | Workflows werden auf EC2 Amazon-Instances ausgeführt. AWS Data Pipeline stellt diese Instances in Ihrem Namen bereit und verwaltet sie. | Amazon MWAA verwendet containerisierte Amazon ECS-Umgebungen zur Ausführung von Aufgaben. |
| Pipeline-Komponenten | Aktivitäten sind Verarbeitungsaufgaben, die als Teil des Workflows ausgeführt werden. | Operatoren |
| Vorbedingungen enthalten bedingte Anweisungen, die erfüllt sein müssen, bevor eine Aktivität ausgeführt werden kann. | Sensoren |
|
| Eine Ressource in AWS Data Pipeline bezieht sich auf die AWS Rechenressource, die die in einer Pipeline-Aktivität festgelegte Arbeit ausführt. Amazon EC2 und Amazon EMR sind zwei verfügbare Ressourcen. | Mithilfe von Aufgaben in einer DAG können Sie eine Vielzahl von Rechenressourcen definieren, darunter Amazon ECS, Amazon EMR und Amazon EKS. Amazon MWAA führt Python-Operationen auf Workern aus, die auf Amazon ECS ausgeführt werden. | |
| Pipeline-Ausführung | AWS Data Pipeline unterstützt die Planung von Läufen mit regulären ratenbasierten und cron-basierten Mustern. | Amazon MWAA unterstützt die Planung mit Cron-Ausdrücken |
| Eine Instanz bezieht sich auf jeden Lauf der Pipeline. | Ein DAG-Lauf |
|
| Ein Versuch bezieht sich auf die Wiederholung eines fehlgeschlagenen Vorgangs. | Amazon MWAA unterstützt Wiederholungen, die Sie entweder auf DAG-Ebene oder auf Task-Ebene definieren. |
Beispielimplementierungen
In vielen Fällen können Sie Ressourcen, mit denen Sie derzeit orchestrieren, AWS Data Pipeline nach der Migration zu Amazon MWAA wiederverwenden. Die folgende Liste enthält Beispielimplementierungen mit Amazon MWAA für die häufigsten AWS Data Pipeline Anwendungsfälle.
-
Einen Amazon EMR-Job ausführen
(AWS Workshop) -
Erstellen eines benutzerdefinierten Plugins für Apache Hive und Hadoop (Amazon MWAA-Benutzerhandbuch)
-
Daten von S3 nach Redshift kopieren
(AWS Workshop) -
Ausführen eines Shell-Skripts auf einer Amazon ECS-Remoteinstanz (Amazon MWAA-Benutzerhandbuch)
Weitere Tutorials und Beispiele finden Sie im Folgenden:
Vergleich der Preise
Die Preisgestaltung für AWS Data Pipeline richtet sich nach der Anzahl der Pipelines sowie nach der Nutzungsdauer der einzelnen Pipelines. Aktivitäten, die Sie mehr als einmal am Tag ausführen (hohe Frequenz), kosten 1 USD pro Monat und Aktivität. Aktivitäten, die Sie einmal am Tag oder weniger (niedrige Frequenz) ausführen, kosten 0,60 USD pro Monat und Aktivität. Der Preis für inaktive Pipelines beträgt 1 USD pro Pipeline. Weitere Informationen finden Sie auf der Seite mit den AWS Data Pipeline Preisen
Die Preise für Amazon MWAA basieren auf der Dauer, in der Ihre verwaltete Apache Airflow Airflow-Umgebung existiert, sowie auf der zusätzlichen auto Skalierung, die erforderlich ist, um mehr Mitarbeiter bereitzustellen, oder auf der Kapazität des Planers. Sie zahlen für die Nutzung Ihrer Amazon MWAA-Umgebung auf Stundenbasis (in Rechnung gestellt mit einer Auflösung von einer Sekunde), wobei die Gebühren je nach Größe der Umgebung variieren. Amazon MWAA skaliert die Anzahl der Worker automatisch auf Grundlage Ihrer Umgebungskonfiguration. AWS berechnet die Kosten für zusätzliche Mitarbeiter separat. Weitere Informationen zu den stündlichen Kosten für die Nutzung verschiedener Amazon MWAA-Umgebungsgrößen finden Sie auf der Amazon MWAA-Preisseite
Zugehörige Ressourcen
Weitere Informationen und bewährte Methoden für die Verwendung von Amazon MWAA finden Sie in den folgenden Ressourcen: