

AWS Data Pipeline ist für Neukunden nicht mehr verfügbar. Bestandskunden von AWS Data Pipeline können den Service weiterhin wie gewohnt nutzen. [Weitere Informationen](https://aws.amazon.com/blogs/big-data/migrate-workloads-from-aws-data-pipeline/)

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Was ist AWS Data Pipeline?
<a name="what-is-datapipeline"></a>

**Anmerkung**  
AWS Data Pipeline Der Service befindet sich im Wartungsmodus und es sind keine neuen Funktionen oder Regionserweiterungen geplant. Weitere Informationen und Informationen zur Migration Ihrer vorhandenen Workloads finden Sie unter. [Migration von Workloads AWS Data Pipeline](migration.md)

AWS Data Pipeline ist ein Webservice, mit dem Sie die Übertragung und Transformation von Daten automatisieren können. Mit AWS Data Pipeline können Sie datengesteuerte Workflows definieren, sodass Aufgaben vom erfolgreichen Abschluss früherer Aufgaben abhängig sein können. Sie definieren die Parameter Ihrer Datentransformationen und setzen AWS Data Pipeline die von Ihnen eingerichtete Logik durch. 

Die folgenden Komponenten von AWS Data Pipeline arbeiten zusammen, um Ihre Daten zu verwalten:
+ Eine *Pipeline-Definition* legt die geschäftliche Logik der Datenverwaltung fest. Weitere Informationen finden Sie unter [Syntax der Pipeline-Definitionsdatei](dp-writing-pipeline-definition.md). 
+ Eine *Pipeline* plant und führt Aufgaben aus, indem sie Amazon EC2 EC2-Instances zur Ausführung der definierten Arbeitsaktivitäten erstellt. Sie müssen nur die Pipeline-Definition in die Pipeline hochladen und diese anschließend aktivieren. Sie können auch die Pipeline-Definition einer gerade ausgeführten Pipeline bearbeiten. Sie müssen die Pipeline dann nur erneut aktivieren, damit die Änderungen wirksam werden. Außerdem können Sie die Pipeline deaktivieren, eine Datenquelle ändern und dann die Pipeline erneut aktivieren. Wenn Sie die Pipeline nicht mehr benötigen, können Sie sie löschen.
+  *Task Runner* fragt nach Aufgaben ab und führt diese Aufgaben dann aus. Task Runner könnte beispielsweise Protokolldateien nach Amazon S3 kopieren und Amazon EMR-Cluster starten. Task Runner ist installiert und wird automatisch auf Ressourcen ausgeführt, die durch Ihre Pipeline-Definitionen erstellt wurden. Sie können eine benutzerdefinierte Task Runner-Anwendung schreiben oder die Task Runner-Anwendung verwenden, die von bereitgestellt wird AWS Data Pipeline. Weitere Informationen finden Sie unter [Task Runner](dp-how-remote-taskrunner-client.md).

 Sie können es beispielsweise verwenden, AWS Data Pipeline um die Protokolle Ihres Webservers jeden Tag in Amazon Simple Storage Service (Amazon S3) zu archivieren und dann einen wöchentlichen Amazon EMR-Cluster (Amazon EMR) über diese Protokolle laufen zu lassen, um Verkehrsberichte zu generieren. AWS Data Pipeline plant die täglichen Aufgaben zum Kopieren von Daten und die wöchentliche Aufgabe zum Starten des Amazon EMR-Clusters. AWS Data Pipeline stellt außerdem sicher, dass Amazon EMR wartet, bis die Daten des letzten Tages auf Amazon S3 hochgeladen wurden, bevor es mit der Analyse beginnt, auch wenn es zu unvorhergesehenen Verzögerungen beim Hochladen der Protokolle kommt.

![\[AWS Data Pipeline Funktionsübersicht\]](http://docs.aws.amazon.com/de_de/datapipeline/latest/DeveloperGuide/images/dp-how-dp-works-v2.png)


**Topics**
+ [Migration von Workloads AWS Data Pipeline](migration.md)
+ [Zugehörige Services](datapipeline-related-services.md)
+ [Zugreifen AWS Data Pipeline](#accessing-datapipeline)
+ [Preisgestaltung](#datapipeline-pricing)
+ [Unterstützte Instance-Typen für Pipeline-Aktivitäten](dp-supported-instance-types.md)

# Migration von Workloads AWS Data Pipeline
<a name="migration"></a>

AWS hat den AWS Data Pipeline Dienst 2012 eingeführt. Zu dieser Zeit waren Kunden auf der Suche nach einem Service, der ihnen hilft, Daten mithilfe einer Vielzahl von Rechenoptionen zuverlässig zwischen verschiedenen Datenquellen zu übertragen. Heute gibt es andere Dienste, die Kunden ein besseres Erlebnis bieten. Sie können beispielsweise AWS Glue to verwenden, um Apache Spark-Anwendungen auszuführen und zu orchestrieren, AWS Step Functions zur Orchestrierung von AWS Servicekomponenten oder Amazon Managed Workflows for Apache Airflow (Amazon MWAA), um die Workflow-Orchestrierung für Apache Airflow zu verwalten.

In diesem Thema wird erklärt, wie Sie von zu alternativen Optionen migrieren. AWS Data Pipeline Welche Option Sie wählen, hängt von Ihrer aktuellen Arbeitslast ab AWS Data Pipeline. Sie können typische Anwendungsfälle von entweder AWS Data Pipeline AWS Glue zu AWS Step Functions oder Amazon MWAA migrieren.

## Migration von Workloads zu AWS Glue
<a name="migration-glue"></a>

[AWS Glue](https://aws.amazon.com/glue/) ist ein Serverless-Datenintegrationsdienst, der es Analytics-Benutzern erleichtert, Daten aus mehreren Quellen zu erkennen, vorzubereiten, zu verschieben und zu integrieren. Es umfasst Tools für die Erstellung, Ausführung von Jobs und Orchestrierung von Workflows. Mit AWS Glue können Sie mehr als 70 verschiedene Datenquellen entdecken und eine Verbindung zu ihnen herstellen und Ihre Daten in einem zentralen Datenkatalog verwalten. Sie können ETL-Pipelines (Extract, Transform, Load) visuell erstellen, ausführen und überwachen, um Daten in Ihre Date Lakes zu laden. Außerdem können Sie mithilfe von Amazon Athena, Amazon EMR und Amazon Redshift Spectrum sofort katalogisierte Daten durchsuchen und abfragen.

Wir empfehlen, Ihren AWS Data Pipeline Workload zu den folgenden AWS Glue Zeiten zu migrieren:
+ Sie suchen nach einem serverlosen Datenintegrationsservice, der verschiedene Datenquellen, Autorenschnittstellen wie visuelle Editoren und Notizbücher sowie erweiterte Datenverwaltungsfunktionen wie Datenqualität und Erkennung sensibler Daten unterstützt.
+ Ihr Workload kann auf AWS Glue Workflows, Jobs (in Python oder Apache Spark) und Crawler migriert werden (Ihre bestehende Pipeline basiert beispielsweise auf Apache Spark).
+ Sie benötigen eine einzige Plattform, die alle Aspekte Ihrer Datenpipeline abwickeln kann, einschließlich Aufnahme, Verarbeitung, Übertragung, Integritätstests und Qualitätsprüfungen.
+ Ihre bestehende Pipeline wurde anhand einer vordefinierten Vorlage auf der AWS Data Pipeline Konsole erstellt, z. B. dem Exportieren einer DynamoDB-Tabelle nach Amazon S3, und Sie suchen nach derselben Vorlage für denselben Zweck.
+ Ihre Arbeitslast hängt nicht von einer bestimmten Hadoop-Ökosystemanwendung wie Apache Hive ab.
+ Ihr Workload erfordert keine Orchestrierung von lokalen Servern.

AWS berechnet für Crawler (Erkennung von Daten) und ETL-Jobs (Verarbeitung und Laden von Daten) einen Stundensatz, der sekundengenau abgerechnet wird. AWS Glue Studio ist eine integrierte Orchestrierungs-Engine für AWS Glue Ressourcen und wird ohne zusätzliche Kosten angeboten. Weitere Informationen zur Preisgestaltung finden Sie unter [AWS Glue Preise](https://aws.amazon.com/glue/pricing/).

## Migration von Workloads zu AWS Step Functions
<a name="migration-step-functions"></a>

[AWS Step Functions](https://aws.amazon.com/step-functions/) ist ein serverloser Orchestrierungsservice, mit dem Sie Workflows für Ihre geschäftskritischen Anwendungen erstellen können. Mit Step Functions verwenden Sie einen visuellen Editor, um Workflows zu erstellen und direkt in über 11.000 Aktionen für über 250 AWS Services wie AWS Lambda, Amazon EMR, DynamoDB und mehr zu integrieren. Sie können Step Functions verwenden, um Datenverarbeitungspipelines zu orchestrieren, Fehler zu behandeln und mit den Drosselungsgrenzen für die zugrunde liegenden Dienste zu arbeiten. AWS Sie können Workflows erstellen, die Modelle für maschinelles Lernen verarbeiten und veröffentlichen, Mikroservices orchestrieren und AWS Dienste steuern, z. B. um ETL-Workflows (Extrahieren AWS Glue, Transformieren und Laden) zu erstellen. Sie können auch lang andauernde, automatisierte Workflows für Anwendungen erstellen, die menschliche Interaktion erfordern.

Ähnlich AWS Data Pipeline wie AWS Step Functions ist ein vollständig verwalteter Service von AWS. Sie müssen sich nicht um die Infrastruktur kümmern, Worker patchen, Betriebssystem-Versionsupdates oder ähnliches verwalten.

Wir empfehlen, Ihren AWS Data Pipeline Workload zu AWS Step Functions zu migrieren, wenn:
+ Sie suchen nach einem serverlosen, hochverfügbaren Workflow-Orchestrierungsservice.
+ Sie suchen nach einer kostengünstigen Lösung, die mit der Granularität der Ausführung einer einzelnen Aufgabe berechnet wird.
+ Ihre Workloads orchestrieren Aufgaben für mehrere andere AWS Services wie Amazon EMR, Lambda oder DynamoDB. AWS Glue
+ Sie suchen nach einer Low-Code-Lösung, die über einen drag-and-drop visuellen Designer für die Workflow-Erstellung verfügt und für die Sie keine neuen Programmierkonzepte erlernen müssen.
+ Sie suchen nach einem Service, der Integrationen mit über 250 anderen AWS Diensten bietet, die über 11.000 Aktionen abdecken out-of-the-box, sowie Integrationen mit benutzerdefinierten Nichtdiensten und Aktivitäten ermöglicht.AWS 

 AWS Data Pipeline Sowohl Step Functions als auch Step Functions verwenden das JSON-Format, um Workflows zu definieren. Auf diese Weise können Sie Ihre Workflows in der Quellcodeverwaltung speichern, Versionen verwalten, den Zugriff kontrollieren und mit CI/CD automatisieren. Step Functions verwendet eine Syntax namens Amazon State Language, die vollständig auf JSON basiert und einen nahtlosen Übergang zwischen der textuellen und der visuellen Darstellung des Workflows ermöglicht.

Mit Step Functions können Sie dieselbe Version von Amazon EMR auswählen, die Sie derzeit verwenden. AWS Data Pipeline

Für die Migration von Aktivitäten auf AWS Data Pipeline verwalteten Ressourcen können Sie die [AWS SDK-Serviceintegration](https://docs.aws.amazon.com/step-functions/latest/dg/supported-services-awssdk.html) in Step Functions verwenden, um die Bereitstellung und Bereinigung von Ressourcen zu automatisieren.

[Für die Migration von Aktivitäten auf lokalen Servern, benutzerverwalteten EC2-Instances oder einem benutzerverwalteten EMR-Cluster können Sie einen SSM-Agent auf der Instance installieren.](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-prereqs.html) Sie können den Befehl über den [AWS Systems Manager Run Command](https://docs.aws.amazon.com/systems-manager/latest/userguide/execute-remote-commands.html) von Step Functions aus initiieren. Sie können den Zustandsmaschine auch über den in [Amazon](https://aws.amazon.com/eventbridge/) definierten Zeitplan initiieren EventBridge.

AWS Step Functions hat zwei Arten von Workflows: Standard-Workflows und Express-Workflows. Bei Standard-Workflows werden Ihnen Gebühren auf der Grundlage der Anzahl der Statusübergänge berechnet, die für die Ausführung Ihrer Anwendung erforderlich sind. Bei Express-Workflows werden Ihnen Gebühren auf der Grundlage der Anzahl der Anfragen für Ihren Workflow und dessen Dauer berechnet. Weitere Informationen zur Preisgestaltung finden Sie unter [AWS Step Functions Pricing](https://aws.amazon.com/step-functions/pricing/).

## Migration von Workloads zu Amazon MWAA
<a name="migration-mwaa"></a>

[Amazon MWAA](https://aws.amazon.com/managed-workflows-for-apache-airflow/) (Managed Workflows for Apache Airflow) ist ein verwalteter Orchestrierungsservice für [Apache Airflow](https://airflow.apache.org/), der es einfacher macht, end-to-end Daten-Pipelines in der Cloud in großem Maßstab einzurichten und zu betreiben. Apache Airflow ist ein Open-Source-Tool zum programmgesteuerten Erstellen, Planen und Überwachen von Prozess- und Aufgabensequenzen, die als „Workflows“ bezeichnet werden. Mit Amazon MWAA können Sie Airflow und die Programmiersprache Python verwenden, um Workflows zu erstellen, ohne die zugrunde liegende Infrastruktur im Hinblick auf Skalierbarkeit, Verfügbarkeit und Sicherheit verwalten zu müssen. Amazon MWAA passt seine Workflow-Ausführungskapazität automatisch an Ihre Bedürfnisse an und ist in AWS Sicherheitsservices integriert, um Ihnen einen schnellen und sicheren Zugriff auf Ihre Daten zu ermöglichen.

Ähnlich AWS Data Pipeline wie Amazon MWAA ist ein vollständig verwalteter Service, der von bereitgestellt wird. AWS Sie müssen sich zwar mit einigen neuen Konzepten vertraut machen, die für diese Services spezifisch sind, aber Sie müssen sich nicht mit der Verwaltung der Infrastruktur, der Patch-Worker, der Verwaltung von Betriebssystemversions-Updates oder ähnlichem befassen.

Wir empfehlen, Ihre AWS Data Pipeline Workloads zu Amazon MWAA zu migrieren, wenn:
+ Sie suchen nach einem verwalteten, hochverfügbaren Service zur Orchestrierung von in Python geschriebenen Workflows.
+ Sie möchten auf eine vollständig verwaltete, weit verbreitete Open-Source-Technologie, Apache Airflow, umsteigen, um maximale Portabilität zu erzielen.
+ Sie benötigen eine einzige Plattform, die alle Aspekte Ihrer Datenpipeline abwickeln kann, einschließlich Erfassung, Verarbeitung, Übertragung, Integritätstests und Qualitätsprüfungen.
+ Sie suchen nach einem Service, der für die Orchestrierung von Daten-Pipelines konzipiert ist und Funktionen wie eine umfangreiche Benutzeroberfläche für Beobachtbarkeit, Neustarts für fehlgeschlagene Workflows, Backfills und Wiederholungsversuche für Aufgaben bietet.
+ Sie sind auf der Suche nach einem Service, der über 800 vorgefertigte Bediener und Sensoren verfügt und AWS sowohl Dienstleistungen als auch andere Dienste abdeckt.AWS 

Amazon MWAA-Workflows sind mithilfe von Python als Directed Acyclic Graphs (DAGs) definiert, sodass Sie sie auch als Quellcode behandeln können. Mit dem erweiterbaren Python-Framework von Airflow können Sie Workflows erstellen, die sich mit praktisch jeder Technologie verbinden. Es verfügt über eine umfangreiche Benutzeroberfläche zum Anzeigen und Überwachen von Workflows und kann zur Automatisierung des Prozesses problemlos in Versionskontrollsysteme integriert werden. CI/CD 

Mit Amazon MWAA können Sie dieselbe Version von Amazon EMR wählen, die Sie derzeit verwenden. AWS Data Pipeline

AWS berechnet die Zeit, in der Ihre Airflow-Umgebung läuft, plus zusätzliche auto Skalierung, um mehr Mitarbeiter- oder Webserverkapazität bereitzustellen. Erfahren Sie mehr über die Preisgestaltung in [Amazon Managed Workflows for Apache Airflow Pricing](https://aws.amazon.com/managed-workflows-for-apache-airflow/pricing/).

## Abbildung der Konzepte
<a name="migration-mapping"></a>

Die folgende Tabelle enthält eine Übersicht der wichtigsten Konzepte, die von den Diensten verwendet werden. Es hilft Personen, die mit Data Pipeline vertraut sind, die Step Functions und die MWAA-Terminologie zu verstehen.


| Data Pipeline | Glue | Step Functions | Amazon MWAA | 
| --- | --- | --- | --- | 
| Pipelines | [Arbeitsabläufe](https://docs.aws.amazon.com/glue/latest/dg/workflows_overview.html) | [Arbeitsabläufe](https://docs.aws.amazon.com/step-functions/latest/dg/concepts-standard-vs-express.html) | [Direkte Acrylgrafiken](https://airflow.apache.org/docs/apache-airflow/stable/core-concepts/dags.html) | 
| Pipeline-Definition JSON | [Workflow-Definition](https://docs.aws.amazon.com/glue/latest/dg/creating_running_workflows.html) oder [Python-basierte Blueprints](https://docs.aws.amazon.com/glue/latest/dg/blueprints-overview.html) | [Amazon State Language JSON](https://docs.aws.amazon.com/step-functions/latest/dg/concepts-amazon-states-language.html) | [Python-basiert](https://airflow.apache.org/docs/apache-airflow/stable/tutorial/fundamentals.html#example-pipeline-definition) | 
| Aktivitäten | [Aufträge](https://docs.aws.amazon.com/glue/latest/dg/etl-jobs-section.html) | [https://docs.aws.amazon.com/step-functions/latest/dg/concepts-states.html](https://docs.aws.amazon.com/step-functions/latest/dg/concepts-states.html) | [Aufgaben](https://airflow.apache.org/docs/apache-airflow/stable/core-concepts/tasks.html) ([Bediener](https://airflow.apache.org/docs/apache-airflow/stable/core-concepts/operators.html) und [Sensoren](https://airflow.apache.org/docs/apache-airflow/stable/core-concepts/sensors.html)) | 
| Instances | [Job läuft](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-jobs-runs.html) | [Hinrichtungen](https://docs.aws.amazon.com/step-functions/latest/dg/concepts-state-machine-executions.html) | [DAG läuft](https://airflow.apache.org/docs/apache-airflow/stable/core-concepts/dag-run.html) | 
| Attempts | Versuche es erneut | [Fänger und Retrier](https://docs.aws.amazon.com/step-functions/latest/dg/concepts-error-handling.html) | [Erneute Versuche](https://airflow.apache.org/docs/apache-airflow/stable/core-concepts/dags.html#default-arguments) | 
| Zeitplan der Pipeline | [Trigger einplanen](https://docs.aws.amazon.com/glue/latest/dg/about-triggers.html) | [EventBridge Scheduler-Aufgaben](https://docs.aws.amazon.com/scheduler/latest/UserGuide/what-is-scheduler.html) | [Cron](https://airflow.apache.org/docs/apache-airflow/stable/authoring-and-scheduling/timezone.html)[, [Zeitpläne, datenbewusst](https://airflow.apache.org/docs/apache-airflow/stable/authoring-and-scheduling/timetable.html)](https://airflow.apache.org/docs/apache-airflow/stable/authoring-and-scheduling/datasets.html) | 
| Pipeline-Ausdrücke und Funktionen | [Blueprint-Bibliothek](https://docs.aws.amazon.com/glue/latest/dg/developing-blueprints-overview.html) | [Step Functions, intrinsische Funktionen](https://docs.aws.amazon.com/step-functions/latest/dg/amazon-states-language-intrinsic-functions.html) [und Lambda AWS](https://docs.aws.amazon.com/step-functions/latest/dg/use-cases-data-processing.html) | [Erweiterbares Python-Framework](https://airflow.apache.org/docs/apache-airflow/stable/howto/custom-operator.html) | 

## Beispiele
<a name="migration-samples"></a>

In den folgenden Abschnitten sind öffentliche Beispiele aufgeführt, auf die Sie zurückgreifen können, um von zu einzelnen Diensten AWS Data Pipeline zu migrieren. Sie können sie als Beispiele verwenden und Ihre eigene Pipeline für die einzelnen Dienste erstellen, indem Sie sie auf der Grundlage Ihres Anwendungsfalls aktualisieren und testen.

### AWS Glue Beispiele
<a name="migration-samples-aws-glue"></a>

Die folgende Liste enthält Beispielimplementierungen für die häufigsten AWS Data Pipeline Anwendungsfälle mit. AWS Glue
+ [Spark-Jobs ausführen](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-intro-tutorial.html)
+ [Daten von JDBC nach Amazon S3 kopieren (einschließlich Amazon](https://github.com/awslabs/aws-glue-blueprint-libs/tree/master/samples/jdbc_to_s3) Redshift)
+ [Daten von Amazon S3 nach JDBC kopieren](https://github.com/awslabs/aws-glue-blueprint-libs/tree/master/samples/s3_to_jdbc) (einschließlich Amazon Redshift)
+ [Daten von Amazon S3 nach DynamoDB kopieren](https://github.com/awslabs/aws-glue-blueprint-libs/tree/master/samples/s3_to_dynamodb)
+ [Daten zu und von Amazon Redshift verschieben](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-redshift.html)
+ [Kontoübergreifender regionsübergreifender Zugriff auf DynamoDB-Tabellen](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-dynamo-db-cross-account.html)

### AWS Beispiele für Step Functions
<a name="migration-samples-aws-step-functions"></a>

Die folgende Liste enthält Beispielimplementierungen für die häufigsten AWS Data Pipeline Anwendungsfälle mit AWS Step Functions.
+ [Einen Amazon EMR-Job verwalten](https://docs.aws.amazon.com/step-functions/latest/dg/sample-emr-job.html)
+ [Ausführen eines Datenverarbeitungsauftrags auf Amazon EMR Serverless](https://aws.amazon.com/blogs/big-data/run-a-data-processing-job-on-amazon-emr-serverless-with-aws-step-functions/)
+ [Jobs werden ausgeführt Hive/Pig/Hadoop](https://catalog.us-east-1.prod.workshops.aws/workshops/c86bd131-f6bf-4e8f-b798-58fd450d3c44/en-US/step-functions/01-execute-step-function)
+ [Abfragen großer Datensätze](https://docs.aws.amazon.com/step-functions/latest/dg/sample-query-large-datasets.html) (Amazon Athena, Amazon S3,) AWS Glue
+ [Ausführen von ETL-Workflows mit Amazon Redshift](https://docs.aws.amazon.com/step-functions/latest/dg/sample-etl-orchestration.html)
+ [Crawler orchestrieren AWS Glue](https://aws.amazon.com/blogs/compute/orchestrating-aws-glue-crawlers-using-aws-step-functions/)

Sehen Sie sich zusätzliche [Tutorials](https://docs.aws.amazon.com/step-functions/latest/dg/tutorials.html) und [Beispielprojekte](https://docs.aws.amazon.com/step-functions/latest/dg/create-sample-projects.html) zur Verwendung von AWS Step Functions an.

### Amazon MWAA-Beispiele
<a name="migration-samples-amazon-mwaa"></a>

Die folgende Liste enthält Beispielimplementierungen für die häufigsten AWS Data Pipeline Anwendungsfälle mit Amazon MWAA.
+ [Einen Amazon EMR-Job ausführen](https://catalog.us-east-1.prod.workshops.aws/workshops/795e88bb-17e2-498f-82d1-2104f4824168/en-US/workshop-2-2-2/m1-processing/emr)
+ [Ein benutzerdefiniertes Plugin für Apache Hive und Hadoop erstellen](https://docs.aws.amazon.com/mwaa/latest/userguide/samples-hive.html)
+ [Daten von Amazon S3 nach Redshift kopieren](https://catalog.us-east-1.prod.workshops.aws/workshops/795e88bb-17e2-498f-82d1-2104f4824168/en-US/workshop-2-2-2/m1-processing/redshift)
+ [Ausführen eines Shell-Skripts auf einer Remote-EC2-Instance](https://docs.aws.amazon.com/mwaa/latest/userguide/samples-ssh.html)
+ [Orchestrierung hybrider (vor Ort) Workflows](https://dev.to/aws/orchestrating-hybrid-workflows-using-amazon-managed-workflows-for-apache-airflow-mwaa-2boc)

Sehen Sie sich zusätzliche [Tutorials](https://docs.aws.amazon.com/mwaa/latest/userguide/tutorials.html) und [Beispielprojekte](https://docs.aws.amazon.com/mwaa/latest/userguide/sample-code.html) für die Verwendung von Amazon MWAA an.

# Zugehörige Services
<a name="datapipeline-related-services"></a>

AWS Data Pipeline arbeitet mit den folgenden Diensten zum Speichern von Daten zusammen.
+ Amazon DynamoDB — Bietet eine vollständig verwaltete NoSQL-Datenbank mit schneller Leistung zu niedrigen Kosten. Weitere Informationen finden Sie im *[Amazon DynamoDB DynamoDB-Entwicklerhandbuch](https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/)*.
+ Amazon RDS — Bietet eine vollständig verwaltete relationale Datenbank, die auf große Datenmengen skaliert werden kann. Weitere Informationen finden Sie im *[Amazon Relational Database Service Developer Guide](https://docs.aws.amazon.com/AmazonRDS/latest/DeveloperGuide/)*.
+ Amazon Redshift — Bietet ein schnelles, vollständig verwaltetes Data Warehouse im Petabyte-Bereich, mit dem sich riesige Datenmengen einfach und kostengünstig analysieren lassen. Weitere Informationen finden Sie im *[Amazon Redshift Database Developer Guide](https://docs.aws.amazon.com/redshift/latest/dg/)*.
+ Amazon S3 — Bietet sicheren, dauerhaften und hoch skalierbaren Objektspeicher. Weitere Informationen finden Sie im *[Amazon Simple Storage Service-Benutzerhandbuch](https://docs.aws.amazon.com/AmazonS3/latest/userguide/)*.

AWS Data Pipeline arbeitet mit den folgenden Rechendiensten zusammen, um Daten zu transformieren.
+ Amazon EC2 — Bietet skalierbare Rechenkapazität — buchstäblich Server in den Rechenzentren von Amazon —, die Sie zum Aufbau und Hosten Ihrer Softwaresysteme verwenden. Weitere Informationen finden Sie im *[Amazon EC2 EC2-Benutzerhandbuch](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/)*.
+ Amazon EMR — Macht es Ihnen einfach, schnell und kostengünstig, mithilfe eines Frameworks wie Apache Hadoop oder Apache Spark riesige Datenmengen auf Amazon EC2-Servern zu verteilen und zu verarbeiten. Weitere Informationen finden Sie im *[Amazon EMR Developer Guide](https://docs.aws.amazon.com/emr/latest/DeveloperGuide/)*.

## Zugreifen AWS Data Pipeline
<a name="accessing-datapipeline"></a>

Sie können Ihre Pipelines über die folgenden Schnittstellen erstellen und verwalten:
+ **AWS-Managementkonsole**— Stellt eine Weboberfläche zur Verfügung, über die Sie darauf zugreifen können AWS Data Pipeline.
+ **AWS Command Line Interface (AWS CLI)** — Stellt Befehle für eine Vielzahl von AWS-Services bereit, darunter Windows AWS Data Pipeline, macOS und Linux, und wird unter diesen unterstützt. Weitere Informationen zur Installation von finden Sie unter [AWS Command Line Interface](https://aws.amazon.com/cli/). AWS CLI Eine Liste der Befehle für AWS Data Pipeline finden Sie unter [datapipeline](https://docs.aws.amazon.com/cli/latest/reference/datapipeline/index.html).
+ **AWS SDKs** — Bietet sprachspezifische Funktionen APIs und kümmert sich um viele Verbindungsdetails, wie z. B. die Berechnung von Signaturen, die Bearbeitung von Wiederholungsversuchen von Anfragen und die Fehlerbehandlung. Weitere Informationen finden Sie unter [AWS SDKs](https://aws.amazon.com/tools/#SDKs).
+ **Abfrage-API** — Stellt Low-Level-APIs bereit APIs , die Sie mithilfe von HTTPS-Anfragen aufrufen. Die Verwendung der Abfrage-API ist die direkteste Möglichkeit für den Zugriff auf AWS Data Pipeline. Allerdings müssen dann viele technische Abläufe, wie beispielsweise das Erzeugen des Hashwerts zum Signieren der Anforderung und die Fehlerbehandlung, in der Anwendung durchgeführt werden. Weitere Informationen finden Sie in der *[AWS Data Pipeline -API-Referenz](https://docs.aws.amazon.com/datapipeline/latest/APIReference/)*.

## Preisgestaltung
<a name="datapipeline-pricing"></a>

Mit Amazon Web Services bezahlen Sie nur für das, was Sie tatsächlich nutzen. Denn AWS Data Pipeline Sie zahlen für Ihre Pipeline auf der Grundlage, wie oft und wo Ihre Aktivitäten und Voraussetzungen für die Ausführung geplant sind. Weitere Informationen finden Sie unter [AWS Data Pipeline  – Preise](https://aws.amazon.com/datapipeline/pricing/).

Wenn Ihr AWS-Konto jünger als 12 Monate ist, sind Sie zur Nutzung des kostenlosen Kontingents berechtigt. Das kostenlose Kontingent umfasst drei Vorbedingungen mit geringer Häufigkeit und fünf Aktivitäten mit geringer Häufigkeit pro Monat. Weitere Informationen finden Sie unter [Kostenloses Kontingent für AWS](https://aws.amazon.com/free/).

# Unterstützte Instance-Typen für Pipeline-Aktivitäten
<a name="dp-supported-instance-types"></a>

Wenn eine Pipeline AWS Data Pipeline ausgeführt wird, kompiliert sie die Pipeline-Komponenten, um eine Reihe von umsetzbaren Amazon EC2 EC2-Instances zu erstellen. Jede Instance enthält alle Informationen, die zum Ausführen einer bestimmten Aufgabe benötigt werden. Der komplette Satz an Instances stellt die To-do-Liste der Pipeline dar. AWS Data Pipeline übergibt die Instances zur Verarbeitung an Task Runner.

EC2 Instances haben verschiedene Konfigurationen, die als *Instance-Typen* bezeichnet werden. Jeder Instance-Typ verfügt über eine andere CPU, Eingabe/Ausgabe und Speicherkapazität. Zusätzlich zum Instance-Typ für eine Aktivität können Sie verschiedene Kaufoptionen auswählen. Nicht alle Instance-Typen stehen in allen AWS-Regionen zur Verfügung. Wenn ein Instance-Typ nicht verfügbar ist, kann Ihre Pipeline möglicherweise nicht bereitgestellt werden oder wird bei der Bereitstellung eingefroren. Informationen zur Instance-Verfügbarkeit finden Sie auf der [Amazon EC2 EC2-Preisseite.](https://aws.amazon.com//ec2/pricing) Öffnen Sie den Link für Ihre Instance-Kaufoptionen und filtern Sie nach **Region**, um zu sehen, ob ein Instance-Typ in dieser Region verfügbar ist. Weitere Informationen zu diesen Instance-Typen, Familien und Virtualisierungstypen finden Sie unter [Amazon EC2 EC2-Instances](https://aws.amazon.com/ec2/instance-types/) und [Amazon Linux AMI Instance Type Matrix](https://aws.amazon.com/amazon-linux-ami/instance-type-matrix/).

In den folgenden Tabellen werden die AWS Data Pipeline unterstützten Instance-Typen beschrieben. Sie können AWS Data Pipeline Amazon EC2 EC2-Instances in jeder Region starten, auch in Regionen, in denen dies AWS Data Pipeline nicht unterstützt wird. Informationen zu Regionen, in denen dies unterstützt AWS Data Pipeline wird, finden Sie unter [AWS-Regionen und Endpunkte](https://docs.aws.amazon.com/general/latest/gr/rande.html#datapipeline_region). 

**Topics**
+ [Standard-Amazon EC2-Instances nach AWS-Region](dp-ec2-default-instance-types.md)
+ [Zusätzliche unterstützte Amazon EC2 EC2-Instances](dp-ec2-supported-instance-types.md)
+ [Unterstützte Amazon EC2 EC2-Instances für Amazon EMR-Cluster](dp-emr-supported-instance-types.md)

# Standard-Amazon EC2-Instances nach AWS-Region
<a name="dp-ec2-default-instance-types"></a>

Wenn Sie in Ihrer Pipeline-Definition keinen Instance-Typ angeben, startet AWS Data Pipeline standardmäßig eine Instance. 

In der folgenden Tabelle sind die Amazon EC2 EC2-Instances aufgeführt, die standardmäßig in den Regionen AWS Data Pipeline verwendet werden, in denen dies unterstützt AWS Data Pipeline wird. 


| Name der Region | Region | Instance-Typ | 
| --- | --- | --- | 
| USA Ost (Nord-Virginia) | us-east-1 | m1.small | 
| USA West (Oregon) | us-west-2 | m1.small | 
| Asien-Pazifik (Sydney) | ap-southeast-2 | m1.small | 
| Asien-Pazifik (Tokio) | ap-northeast-1 | m1.small | 
| EU (Irland) | eu-west-1 | m1.small | 

In der folgenden Tabelle sind die Amazon EC2 EC2-Instances aufgeführt, die standardmäßig in den Regionen AWS Data Pipeline gestartet werden, in denen AWS Data Pipeline dies nicht unterstützt wird. 


| Name der Region | Region | Instance-Typ | 
| --- | --- | --- | 
| USA Ost (Ohio) | us-east-2 | t2.small | 
| USA West (Nordkalifornien) | us-west-1 | m1.small | 
| Asien-Pazifik (Mumbai) | ap-south-1 | t2.small | 
| Asien-Pazifik (Singapur) | ap-southeast-1 | m1.small | 
| Asien-Pazifik (Seoul) | ap-northeast-2 | t2.small | 
| Kanada (Zentral) | ca-central-1 | t2.small | 
| EU (Frankfurt) | eu-central-1 | t2.small | 
| EU (London) | eu-west-2 | t2.small | 
| EU (Paris) | eu-west-3 | t2.small | 
| Südamerika (São Paulo) | sa-east-1 | m1.small | 

# Zusätzliche unterstützte Amazon EC2 EC2-Instances
<a name="dp-ec2-supported-instance-types"></a>

Neben den Standard-Instances, die erstellt werden, wenn Sie in Ihrer Pipeline-Definition keinen Instance-Typ angeben, werden auch die folgenden Instances unterstützt. 

In der folgenden Tabelle sind die Amazon EC2 EC2-Instances aufgeführt, die AWS Data Pipeline unterstützt und erstellt werden können, sofern angegeben. 


| Instance-Klasse | Instance-Typen | 
| --- | --- | 
| Allgemeine Zwecke |  t2.nano \$1 t2.micro \$1 t2.small \$1 t2.medium \$1 t2.large  | 
| Für Datenverarbeitung optimiert |  c3.large \$1 c3.xlarge \$1 c3.2xlarge \$1 c3.4xlarge \$1 c3.8xlarge \$1 c4.large \$1 c4.xlarge \$1 c4.2xlarge \$1 c4.4xlarge \$1 c4.8xlarge \$1 c5.xlarge \$1 c5.9xlarge \$1 c5.2xlarge \$1 c5.4xlarge \$1 c5.9xlarge \$1 c5.18xlarge \$1 c5d.xlarge \$1 c5d.2xlarge \$1 c5d.4xlarge \$1 c5d.9xlarge \$1 c5d.18xlarge  | 
| Arbeitsspeicher optimiert |  m3.medium \$1 m3.large \$1 m3.xlarge \$1 m3.2xlarge \$1 m4.large \$1 m4.xlarge \$1 m4.2xlarge \$1 m4.4xlarge \$1 m4.10xlarge \$1 m4.16xlarge \$1 m5.xlarge \$1 m5.2xlarge \$1 m5.4xlarge \$1 m5.12xlarge \$1 m5.24xlarge \$1 m5d.xlarge \$1 m5d.2xlarge \$1 m5d.4xlarge \$1 m5d.12xlarge \$1 m5d.24xlarge r3.large \$1 r3.xlarge \$1 r3.2xlarge \$1 r3.4xlarge \$1 r3.8xlarge \$1 r4.large \$1 r4.xlarge \$1 r4.2xlarge \$1 r4.4xlarge \$1 r4.8xlarge \$1 r4.16xlarge  | 
| Speicheroptimiert |   i2.xlarge \$1 i2.2xlarge \$1 i2.4xlarge \$1 i2.8xlarge \$1 hs1.8xlarge \$1 g2.2xlarge \$1 g2.8xlarge \$1 d2.xlarge \$1 d2.2xlarge \$1 d2.4xlarge \$1 d2.8xlarge  | 

# Unterstützte Amazon EC2 EC2-Instances für Amazon EMR-Cluster
<a name="dp-emr-supported-instance-types"></a>

In dieser Tabelle sind die Amazon EC2 EC2-Instances aufgeführt, die Amazon EMR-Cluster AWS Data Pipeline unterstützen und für diese erstellen können, sofern angegeben. Weitere Informationen finden Sie unter [Instance-Flotten konfigurieren](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-supported-instance-types.html) im *Verwaltungshandbuch für Amazon EMR*.


| Instance-Klasse | Instance-Typen | 
| --- | --- | 
| Allgemeine Zwecke |  m1.small \$1 m1.medium \$1 m1.large \$1 m1.xlarge \$1 m3.xlarge \$1 m3.2xlarge  | 
| Für Datenverarbeitung optimiert |  c1.medium \$1 c1.xlarge \$1 c3.xlarge \$1 c3.2xlarge \$1 c3.4xlarge \$1 c3.8xlarge \$1 cc1.4xlarge\$1 cc2.8xlarge \$1 c4.large \$1 c4.xlarge \$1 c4.2xlarge\$1 c4.4xlarge \$1 c4.8xlarge \$1 c5.xlarge \$1 c5.9xlarge \$1 c5.2xlarge \$1 c5.4xlarge \$1 c5.9xlarge \$1 c5.18xlarge \$1 c5d.xlarge \$1 c5d.2xlarge \$1 c5d.4xlarge \$1 c5d.9xlarge \$1 c5d.18xlarge  | 
| Arbeitsspeicher optimiert | m2.xlarge \$1 m2.2xlarge \$1 m2.4xlarge \$1 r3.xlarge \$1 r3.2xlarge \$1 r3.4xlarge \$1 r3.8xlarge \$1 cr1.8xlarge \$1 m4.large \$1 m4.xlarge \$1 m4.2xlarge \$1 m4.4xlarge \$1 m4.10xlarge \$1 m4.16large \$1 m5.xlarge \$1 m5.2xlarge \$1 m5.4xlarge \$1 m5.12xlarge \$1 m5.24xlarge \$1 m5d.xlarge \$1 m5d.2xlarge \$1 m5d.4xlarge \$1 m5d.12xlarge \$1 m5d.24xlarge \$1 r4.large \$1 r4.xlarge \$1 r4.2xlarge \$1 r4.4xlarge \$1 r4.8xlarge \$1 r4.16xlarge | 
| Speicheroptimiert |  h1.4xlarge \$1 hs1.2xlarge \$1 hs1.4xlarge\$1 hs1.8xlarge \$1 i2.xlarge \$1 i2.2xlarge \$1 i2.4large \$1 i2.8xlarge \$1 d2.xlarge \$1 d2.2xlarge\$1 d2.4xlarge \$1 d2.8xlarge  | 
| Beschleunigtes Computing | g2.2xlarge \$1 cg1.4xlarge | 