AWS Data Pipeline ist für Neukunden nicht mehr verfügbar. Bestandskunden von AWS Data Pipeline können den Service weiterhin wie gewohnt nutzen. [Weitere Informationen](https://aws.amazon.com/blogs/big-data/migrate-workloads-from-aws-data-pipeline/)

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Einen Cluster über die Befehlszeile starten
<a name="dp-launch-emr-jobflow-cli"></a>

Wenn Sie regelmäßig einen Amazon EMR-Cluster zur Analyse von Webprotokollen oder zur Analyse wissenschaftlicher Daten ausführen, können Sie ihn AWS Data Pipeline zur Verwaltung Ihrer Amazon EMR-Cluster verwenden. Mit können Sie Vorbedingungen angeben AWS Data Pipeline, die erfüllt sein müssen, bevor der Cluster gestartet wird (z. B. um sicherzustellen, dass die heutigen Daten auf Amazon S3 hochgeladen wurden). Dieses Tutorial führt Sie durch die Einführung eines Clusters, der als Modell für eine einfache Amazon EMR-basierte Pipeline oder als Teil einer komplexeren Pipeline dienen kann.

**Voraussetzungen**

Bevor Sie die Befehlszeile zum ersten Mal verwenden können, müssen Sie die folgenden Schritte ausführen:

1. Installieren und konfigurieren Sie eine Befehlszeilenschnittstelle (CLI). Weitere Informationen finden Sie unter [Zugreifen AWS Data Pipeline](what-is-datapipeline.md#accessing-datapipeline).

1. Stellen Sie sicher, dass die IAM-Rollen benannt **DataPipelineDefaultResourceRole**sind **DataPipelineDefaultRole**und existieren. Die AWS Data Pipeline Konsole erstellt diese Rollen automatisch für Sie. Wenn Sie die AWS Data Pipeline Konsole nicht mindestens einmal verwendet haben, müssen Sie diese Rollen manuell erstellen. Weitere Informationen finden Sie unter [IAM-Rollen für AWS Data Pipeline](dp-iam-roles.md).

**Topics**
+ [Erstellen der Pipeline-Definitionsdatei](#streaming-cluster-json)
+ [Hochladen und Aktivieren der Pipeline-Definition](#streaming-cluster-activate)
+ [Überwachen der Pipeline-Runs](#streaming-cluster-monitor)

## Erstellen der Pipeline-Definitionsdatei
<a name="streaming-cluster-json"></a>

Der folgende Code ist die Pipeline-Definitionsdatei für einen einfachen Amazon EMR-Cluster, der einen vorhandenen Hadoop-Streaming-Job ausführt, der von Amazon EMR bereitgestellt wird. Diese Beispielanwendung wird aufgerufen WordCount, und Sie können sie auch über die Amazon EMR-Konsole ausführen.

Kopieren Sie diesen Code in eine Textdatei, und speichern Sie sie unter `MyEmrPipelineDefinition.json`. Sie sollten den Amazon S3 S3-Bucket-Speicherort durch den Namen eines Amazon S3 S3-Buckets ersetzen, den Sie besitzen. Sie sollten auch das Start- und das Enddatum ersetzen. Um Cluster sofort zu starten, legen Sie `startDateTime` ein Datum fest, das einen Tag in der Vergangenheit und `endDateTime` einen Tag in der future hat. AWS Data Pipeline beginnt dann sofort mit dem Start der „überfälligen“ Cluster, um den als Arbeitsstau wahrgenommenen Arbeitsstau zu beheben. Dieses Backfilling bedeutet, dass Sie nicht eine Stunde warten müssen, bis der erste Cluster AWS Data Pipeline gestartet wird.

```
{
  "objects": [
    {
      "id": "Hourly",
      "type": "Schedule",
      "startDateTime": "2012-11-19T07:48:00",
      "endDateTime": "2012-11-21T07:48:00",
      "period": "1 hours"
    },
    {
      "id": "MyCluster",
      "type": "EmrCluster",
      "masterInstanceType": "m1.small",
      "schedule": {
        "ref": "Hourly"
      }
    },
    {
      "id": "MyEmrActivity",
      "type": "EmrActivity",
      "schedule": {
        "ref": "Hourly"
      },
      "runsOn": {
        "ref": "MyCluster"
      },
      "step": "/home/hadoop/contrib/streaming/hadoop-streaming.jar,-input,s3n://elasticmapreduce/samples/wordcount/input,-output,s3://myawsbucket/wordcount/output/#{@scheduledStartTime},-mapper,s3n://elasticmapreduce/samples/wordcount/wordSplitter.py,-reducer,aggregate"
    }
  ]
}
```

 Diese Pipeline hat drei Objekte:
+  `Hourly`, was den Zeitplan für die Arbeit repräsentiert. Sie können einen Zeitplan als eines der Felder für eine Aktivität festlegen. Wenn Sie das tun, wird die Aktivität gemäß diesem Zeitplan ausgeführt, in diesem Fall stündlich. 
+  `MyCluster`, was die Gruppe von EC2 Amazon-Instances darstellt, die für den Betrieb des Clusters verwendet werden. Sie können die Größe und Anzahl der EC2 Instances angeben, die als Cluster ausgeführt werden sollen. Wenn Sie die Anzahl an Instances nicht festlegen, startet der Cluster mit zwei Instances, einem Master-Knoten und einem Aufgabenknoten. Sie können ein Subnetz angeben, in dem der Cluster gestartet werden soll. Sie können dem Cluster zusätzliche Konfigurationen hinzufügen, z. B. Bootstrap-Aktionen, um zusätzliche Software auf das von Amazon EMR bereitgestellte AMI zu laden. 
+  `MyEmrActivity`, was die Berechnung darstellt, die mit dem Cluster verarbeitet werden soll. Amazon EMR unterstützt verschiedene Clustertypen, darunter Streaming, Cascading und Scripted Hive. Das `runsOn` Feld bezieht sich auf MyCluster und verwendet dies als Spezifikation für die Grundlagen des Clusters.

## Hochladen und Aktivieren der Pipeline-Definition
<a name="streaming-cluster-activate"></a>

Sie müssen Ihre Pipeline-Definition hochladen und Ihre Pipeline aktivieren. Ersetzen Sie die Befehle in den folgenden Beispielbefehlen *pipeline\$1name* durch ein Label für Ihre Pipeline und *pipeline\$1file* durch den vollqualifizierten Pfad für die `.json` Pipeline-Definitionsdatei.

**AWS CLI**

Verwenden Sie den folgenden Befehl [create-pipeline](https://docs.aws.amazon.com/cli/latest/reference/datapipeline/create-pipeline.html), um Ihre Pipeline-Definition zu erstellen und Ihre Pipeline zu aktivieren. Notieren Sie sich die ID Ihrer Pipeline, da Sie diesen Wert mit den meisten CLI-Befehlen verwenden werden.

```
aws datapipeline create-pipeline --name pipeline_name --unique-id token
{
    "pipelineId": "df-00627471SOVYZEXAMPLE"
}
```

Verwenden Sie den folgenden [put-pipeline-definition](https://docs.aws.amazon.com/cli/latest/reference/datapipeline/put-pipeline-definition.html)Befehl, um Ihre Pipeline-Definition hochzuladen.

```
aws datapipeline put-pipeline-definition --pipeline-id df-00627471SOVYZEXAMPLE --pipeline-definition file://MyEmrPipelineDefinition.json
```

Wenn Ihre Pipeline erfolgreich validiert wurde, ist das `validationErrors` Feld leer. Sie sollten alle Warnungen überprüfen.

Verwenden Sie den folgenden Befehl [activate-pipeline, um Ihre Pipeline](https://docs.aws.amazon.com/cli/latest/reference/datapipeline/activate-pipeline.html) zu aktivieren.

```
aws datapipeline activate-pipeline --pipeline-id df-00627471SOVYZEXAMPLE
```

Mit dem folgenden Befehl [list-pipelines](https://docs.aws.amazon.com/cli/latest/reference/datapipeline/list-pipelines.html) können Sie überprüfen, ob Ihre Pipeline in der Pipeline-Liste aufgeführt ist.

```
aws datapipeline list-pipelines
```

## Überwachen der Pipeline-Runs
<a name="streaming-cluster-monitor"></a>

Sie können Cluster anzeigen, die AWS Data Pipeline mit der Amazon EMR-Konsole gestartet wurden, und Sie können den Ausgabeordner mit der Amazon S3 S3-Konsole anzeigen.

**Um den Fortschritt von Clustern zu überprüfen, die gestartet wurden von AWS Data Pipeline**

1. Öffnen Sie die Amazon-EMR-Konsole.

1. Die Cluster, die von erzeugt wurden, AWS Data Pipeline haben einen Namen, der wie folgt formatiert ist: *<pipeline-identifier>* \$1@ \$1*<emr-cluster-name>*. *<launch-time>*  
![\[Elastic MapReduce Cluster list showing three running clusters with unique identifiers.\]](http://docs.aws.amazon.com/de_de/datapipeline/latest/DeveloperGuide/images/dp-emr-scenario-starting.png)

1. Nachdem einer der Läufe abgeschlossen ist, öffnen Sie die Amazon S3 S3-Konsole und überprüfen Sie, ob der Ausgabeordner mit Zeitstempel vorhanden ist und die erwarteten Ergebnisse des Clusters enthält.  
![\[Amazon S3 console showing folders with timestamp names in the wordcount directory.\]](http://docs.aws.amazon.com/de_de/datapipeline/latest/DeveloperGuide/images/dp-emr-scenario-output.png)