

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Eingabedaten für die Verarbeitung mit Amazon EMR vorbereiten
<a name="emr-plan-input"></a>

Die meisten Clustern laden Eingabedaten und verarbeitet diese anschließend. Zum Laden von Daten müssen diese sich an einem Speicherort befinden, auf den der Cluster zugreifen kann und der ein Format hat, das der Cluster verarbeiten kann. Das gängigste Szenario ist das zum Hochladen von Eingabedaten in Amazon S3. Amazon EMR bietet Tools, mit denen Ihr Cluster Daten aus Amazon S3 importieren oder lesen kann.

Das Standardeingabeformat in Hadoop sind Textdateien. Sie können Hadoop jedoch anpassen und Tools zum Importieren von Daten in anderen Formaten verwenden. 

**Topics**
+ [Arten von Eingabedaten, die Amazon EMR akzeptieren kann](emr-plan-input-accept.md)
+ [Verschiedene Möglichkeiten, Daten in Amazon EMR zu übertragen](emr-plan-get-data-in.md)

# Arten von Eingabedaten, die Amazon EMR akzeptieren kann
<a name="emr-plan-input-accept"></a>

Das Standardeingabeformat für einen Cluster sind Textdateien, bei denen jede Zeile durch ein Zeilenvorschubzeichen (\$1 n) getrennt ist. Dies ist das am häufigsten verwendete Eingabeformat. 

Wenn Ihre Eingabedaten in einem anderen Format geschrieben werden müssen als Standardtextdateien, können Sie die Hadoop-Benutzeroberfläche `InputFormat` verwenden, um andere Eingabetypen anzugeben. Sie können auch eine Unterklasse der `FileInputFormat`-Klasse für den Umgang mit benutzerdefinierten Datentypen verwenden. Weitere Informationen finden Sie unter [http://hadoop.apache. org/docs/current/api/org/apache/hadoop/mapred/InputFormat](http://hadoop.apache.org/docs/current/api/org/apache/hadoop/mapred/InputFormat.html).html. 

Wenn Sie Hive verwenden, können Sie a serializer/deserializer (SerDe) verwenden, um Daten aus einem bestimmten Format in HDFS einzulesen. [Weitere Informationen finden Sie unter https://cwiki.apache. org/confluence/display/Hive/SerDe](https://cwiki.apache.org/confluence/display/Hive/SerDe). 

# Verschiedene Möglichkeiten, Daten in Amazon EMR zu übertragen
<a name="emr-plan-get-data-in"></a>

Amazon EMR bietet mehrere Möglichkeiten, um Daten auf einen Cluster zu laden. Die häufigste Methode besteht im Hochladen der Daten zu Amazon S3 und der Verwendung der integrierten Features von Amazon EMR, um die Daten in Ihren Cluster zu laden. Sie können auch das Hadoop-Feature DistributedCache für den verteilten Cache verwenden, um Dateien von einem verteilten Dateisystem in das lokale Dateisystem zu übertragen. Die von Amazon EMR bereitgestellte Hive-Implementierung (Hive-Version 0.7.1.1 und höher) enthält Funktionen, die Sie zum Importieren und Exportieren von Daten zwischen DynamoDB und einen Amazon-EMR-Cluster verwenden können. Wenn Sie große Datenmengen On-Premises verarbeiten müssen, kann der Direct Connect -Service nützlich sein. 

**Topics**
+ [Daten aus Amazon S3 uploaden](emr-plan-upload-s3.md)
+ [Laden Sie Daten hoch mit AWS DataSync](emr-plan-upload-datasync.md)
+ [Dateien mit verteiltem Cache mit Amazon EMR importieren](emr-plan-input-distributed-cache.md)
+ [Erkennung und Verarbeitung komprimierter Dateien mit Amazon EMR](HowtoProcessGzippedFiles.md)
+ [DynamoDB-Daten mit Amazon EMR in Hive importieren](emr-plan-input-dynamodb.md)
+ [Connect zu Daten mit Amazon EMR AWS Direct Connect her](emr-plan-input-directconnect.md)
+ [Laden Sie große Datenmengen für Amazon EMR hoch mit AWS Snowball Edge](emr-plan-input-snowball.md)

# Daten aus Amazon S3 uploaden
<a name="emr-plan-upload-s3"></a>

Informationen zum Hochladen von Objekten in Amazon S3 finden Sie unter [Ein Objekts zu Ihrem Bucket hinzufügen](https://docs.aws.amazon.com/AmazonS3/latest/userguide/PuttingAnObjectInABucket.html) im *Benutzerhandbuch zu Amazon Simple Storage Service*. Weitere Informationen zur Verwendung von Amazon S3 mit Hadoop finden Sie unter [http://wiki.apache. org/hadoop/AmazonS](http://wiki.apache.org/hadoop2/AmazonS3)3. 

**Topics**
+ [Erstellen und Konfigurieren eines Amazon S3-Buckets](#create-s3-bucket-input)
+ [Konfigurieren von mehrteiligen Uploads für Amazon S3](#Config_Multipart)
+ [Best Practices](#emr-bucket-bestpractices)
+ [Daten in Amazon S3 Express One Zone hochladen](emr-express-one-zone.md)

## Erstellen und Konfigurieren eines Amazon S3-Buckets
<a name="create-s3-bucket-input"></a>

Amazon EMR verwendet das AWS SDK für Java zusammen mit Amazon S3, um Eingabedaten, Protokolldateien und Ausgabedaten zu speichern. Amazon S3 bezeichnet diese Speicherorte als *Buckets*. Buckets haben in Übereinstimmung mit den Amazon-S3- und DNS-Anforderungen bestimmte Einschränkungen und Bedingungen. Weitere Informationen finden Sie unter [Bucket-Einschränkungen und -Limits](https://docs.aws.amazon.com/AmazonS3/latest/userguide/BucketRestrictions.html) im *Benutzerhandbuch zu Amazon Simple Storage Service*.

In diesem Abschnitt erfahren Sie, wie Sie Amazon S3 verwenden AWS-Managementkonsole , um Berechtigungen für einen Amazon S3 S3-Bucket zu erstellen und anschließend festzulegen. Sie können Berechtigungen für einen Amazon-S3-Bucket auch über die Amazon-S3-API oder die AWS CLI erstellen und festlegen. Sie können Curl auch zusammen mit einer Änderung verwenden, um die entsprechenden Authentifizierungsparameter für Amazon S3 zu übergeben.

Weitere Informationen finden Sie in den folgenden Ressourcen:
+ Informationen zur Bucket-Erstellung mittels Konsole finden Sie unter [Erstellen eines Buckets](https://docs.aws.amazon.com/AmazonS3/latest/userguide/create-bucket.html) im *Amazon-S3-Benutzerhandbuch*.
+ Informationen zum Erstellen und Arbeiten mit Buckets mithilfe von finden Sie unter [Verwenden von S3-Befehlen auf hoher Ebene mit dem AWS Command Line Interface](https://docs.aws.amazon.com/AmazonS3/latest/userguide/using-s3-commands.html) im *Amazon S3 S3-Benutzerhandbuch*. AWS CLI
+ Informationen zum Erstellen eines Buckets mithilfe eines SDK finden Sie unter [Beispiele für die Erstellung eines Buckets](https://docs.aws.amazon.com/AmazonS3/latest/userguide/create-bucket-get-location-example.html) im *Benutzerhandbuch für Amazon Simple Storage Service*.
+ Informationen zum Arbeiten mit Buckets über Curl finden Sie unter [Amazon-S3-Authentifizierungstool für Curl](https://aws.amazon.com/code/amazon-s3-authentication-tool-for-curl/).
+ Weitere Informationen zum Angeben regionsspezifischer Buckets finden Sie unter [Zugreifen auf einen Bucket](https://docs.aws.amazon.com/AmazonS3/latest/userguide/UsingBucket.html#access-bucket-intro) im *Benutzerhandbuch für Amazon Simple Storage Service*.
+ Informationen zum Arbeiten mit Buckets unter Verwendung von Amazon S3 Access Points finden Sie unter [Verwenden eines Alias im Bucket-Stil für Ihren Zugangspunkt](https://docs.aws.amazon.com/AmazonS3/latest/userguide/access-points-alias.html) im *Amazon-S3-Benutzerhandbuch*. Sie können Amazon S3 Access Points problemlos mit dem Alias von Amazon S3 Access Points anstelle des Amazon-S3-Bucket-Namens verwenden. Sie können den Alias Amazon S3 Access Point sowohl für bestehende als auch für neue Anwendungen verwenden, darunter Spark, Hive, Presto und andere.

**Anmerkung**  
Wenn Sie für einen Bucket die Option „Protokollierung“ aktivieren, werden nur Bucket-Zugriffslogs aktiviert und nicht Amazon-EMR-Cluster-Logs. 

Während der Bucket-Erstellung oder danach können Sie die entsprechenden Berechtigungen für den Zugriff auf den Bucket festlegen, abhängig von Ihrer Anwendung. Hierbei sollten Sie sich selbst (als Eigentümer) Lese- und Schreibzugriff und anderen autorisierten Benutzern Lesezugriff erteilen.

Erforderliche Amazon-S3-Buckets müssen vorhanden sein, bevor Sie einen Cluster erstellen können. Sie müssen alle erforderlichen Skripts und Daten auf Amazon S3 hochladen, auf die im Cluster verwiesen wird. 

## Konfigurieren von mehrteiligen Uploads für Amazon S3
<a name="Config_Multipart"></a>

Amazon EMR unterstützt den mehrteiligen Amazon S3 S3-Upload über das AWS SDK for Java. Mit dem mehrteiligen Upload können Sie ein einzelnes Objekt in mehreren Teilen hochladen. Sie können diese Objektteile unabhängig und in beliebiger Reihenfolge hochladen. Wenn die Übertragung eines Teils fehlschlägt, können Sie das Teil erneut übertragen, ohne dass dies Auswirkungen auf andere Teile hat. Nachdem alle Teile Ihres Objekts hochgeladen sind, fügt Amazon S3 diese Teile zusammen und erstellt das Objekt.

Weitere Informationen finden Sie unter [Mehrteiliger Upload – Übersicht](https://docs.aws.amazon.com/AmazonS3/latest/userguide/mpuoverview.html) im *Benutzerhandbuch zu Amazon Simple Storage Service*.

Darüber hinaus stellt Amazon EMR Eigenschaften bereit, mit denen Sie die Bereinigung fehlgeschlagener mehrteiliger Uploads genauer steuern können.

In der folgenden Tabelle werden die Amazon-EMR-Konfigurationsparameter für mehrteilige Uploads beschrieben. Sie können diese mit der Konfigurationsklassifizierung `core-site` konfigurieren. Weitere Informationen finden Sie unter [Konfigurieren von Anwendungen](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/configure-apps.html) in den *Amazon-EMR-Versionshinweisen*.


| Name des Konfigurationsparameters | Standardwert | Description | 
| --- | --- | --- | 
| fs.s3n.multipart.uploads.enabled | true | Dieser Boolesche Typ gibt an, ob mehrteilige Uploads aktiviert werden sollen. Wenn EMRFS konsistente Ansicht aktiviert ist, sind mehrteilige Uploads standardmäßig aktiviert. Eine Festlegung dieses Werts auf false wird ignoriert. | 
| fs.s3n.multipart.uploads.split.size | 134217728 | Gibt die maximale Größe eines Teils in Byte an, bevor EMRFS einen neuen Teil-Upload startet, wenn die Funktion für mehrteilige Uploads aktiviert ist. Der Mindestwert ist `5242880` (5 MB). Wenn ein kleinerer Wert angegeben wird, wird `5242880` verwendet. Der Höchstwert ist `5368709120` (5 GB). Wenn ein größerer Wert angegeben wird, wird `5368709120` verwendet. Wenn die clientseitige EMRFS-Verschlüsselung und der Amazon S3 Optimized Committer deaktiviert sind, steuert dieser Wert auch die maximale Größe, die eine Datendatei erreichen kann, bis EMRFS zum Hochladen der Datei anstelle einer `PutObject`-Anfrage mehrteilige Uploads verwendet. Die Ausgabe des obigen Befehls sieht in etwa folgendermaßen aus (JSON format).  | 
| fs.s3n.ssl.enabled | true | Dieser Boolesche Typ gibt an, ob HTTP oder HTTPS verwendet werden soll.  | 
| fs.s3.buckets.create.enabled | false | Ein boolescher Typ, der angibt, ob ein Bucket erstellt werden soll, wenn er nicht vorhanden ist. Wenn Sie dies auf false festlegen, wird eine Ausnahme für CreateBucket-Operationen ausgelöst. | 
| fs.s3.multipart.clean.enabled | false | Ein boolescher Typ, der angibt, ob unvollständige mehrteilige Uploads regelmäßig im Hintergrund bereinigt werden sollen. | 
| fs.s3.multipart.clean.age.threshold | 604800 | Ein long-Typ, der das Mindestalter eines mehrteiligen Uploads in Sekunden angibt, bevor er zur Bereinigung vorgesehen wird. Die Standardeinstellung ist eine Woche. | 
| fs.s3.multipart.clean.jitter.max | 10000 | Eine integer-Typ, der den maximalen Betrag für zufällige Jitter-Verzögerungen in Sekunden angibt, die der festen Verzögerung von 15 Minuten hinzugefügt werden, bevor die nächste Bereinigung geplant wird. | 

### So deaktivieren Sie mehrteilige Uploads
<a name="emr-dev-multipart-upload"></a>

------
#### [ Console ]

**Um mehrteilige Uploads mit der Konsole zu deaktivieren**

1. Melden Sie sich bei der AWS-Managementkonsole an und öffnen Sie die Amazon EMR-Konsole unter [https://console.aws.amazon.com/emr](https://console.aws.amazon.com/emr).

1. Wählen Sie im linken Navigationsbereich unter **EMR in EC2** die Option **Cluster** und dann **Cluster erstellen** aus.

1. Geben Sie in **Softwareeinstellungen bearbeiten** die folgende Konfiguration ein: `classification=core-site,properties=[fs.s3n.multipart.uploads.enabled=false]`.

1. Wählen Sie alle anderen Optionen aus, die für Ihren Cluster gelten. 

1. Um Ihren Cluster jetzt zu starten, wählen Sie **Cluster erstellen** aus.

------
#### [ CLI ]

**Um den mehrteiligen Upload zu deaktivieren, verwenden Sie AWS CLI**

In diesem Verfahren wird erläutert, wie Sie mehrteilige Uploads mithilfe der AWS CLI deaktivieren. Um mehrteilige Uploads zu deaktivieren, geben Sie den Befehl `create-cluster` mit dem Parameter `--bootstrap-actions` ein. 

1. Erstellen Sie eine Datei mit dem Namen `myConfig.json` und dem folgenden Inhalt und speichern Sie sie in dem Verzeichnis, in dem Sie den Befehl ausführen:

   ```
   [
     {
       "Classification": "core-site",
       "Properties": {
         "fs.s3n.multipart.uploads.enabled": "false"
       }
     }
   ]
   ```

1. Geben Sie den folgenden Befehl ein und ersetzen Sie *myKey* durch den Namen Ihres EC2-Schlüsselpaars.
**Anmerkung**  
Linux-Zeilenfortsetzungszeichen (\$1) sind aus Gründen der Lesbarkeit enthalten. Sie können entfernt oder in Linux-Befehlen verwendet werden. Entfernen Sie sie unter Windows oder ersetzen Sie sie durch ein Caret-Zeichen (^).

   ```
   1. aws emr create-cluster --name "Test cluster" \
   2. --release-label emr-7.12.0 --applications Name=Hive Name=Pig \
   3. --use-default-roles --ec2-attributes KeyName=myKey --instance-type m5.xlarge \
   4. --instance-count 3 --configurations file://myConfig.json
   ```

------
#### [ API ]

**So deaktivieren Sie den mehrteiligen Upload mithilfe der API**
+ Informationen zur programmgesteuerten Verwendung von Amazon S3-Multipart-Uploads finden Sie unter [Verwenden des AWS SDK für Java für Multipart-Uploads](https://docs.aws.amazon.com/AmazonS3/latest/userguide/UsingMPDotJavaAPI.html) im *Benutzerhandbuch zu Amazon Simple Storage Service*.

  Weitere Informationen zum AWS SDK for Java finden Sie unter [AWS SDK for Java](https://aws.amazon.com/sdkforjava/).

------

## Best Practices
<a name="emr-bucket-bestpractices"></a>

Nachfolgend sind die Empfehlungen für die Nutzung von Amazon-S3-Buckets mit EMR-Clustern aufgeführt.

### Aktivieren von Versioning
<a name="emr-enable-versioning"></a>

Versioning ist eine empfohlene Konfiguration für Ihre Amazon S3-Buckets. Durch das Aktivieren von Versioning stellen Sie sicher, dass Sie auch versehentlich gelöschte oder überschriebene Daten wiederhergestellt werden können. Weitere Informationen finden Sie unter [Verwenden von Versionsverwaltung](https://docs.aws.amazon.com/AmazonS3/latest/userguide/Versioning.html) im Benutzerhandbuch für Amazon Simple Storage Service.

### Bereinigung mehrteiliger Uploads fehlgeschlagen
<a name="emr-multipart-cleanup"></a>

EMR-Cluster-Komponenten verwenden standardmäßig mehrteilige Uploads über das AWS SDK for Java mit Amazon S3 APIs , um Protokolldateien zu schreiben und Daten in Amazon S3 auszugeben. Informationen zum Ändern von Eigenschaften im Zusammenhang mit dieser Konfiguration über Amazon EMR finden Sie unter [Konfigurieren von mehrteiligen Uploads für Amazon S3](#Config_Multipart). Es kann vorkommen, dass das Hochladen einer großen Datei zu einem unvollständigen mehrteiligen Upload in Amazon S3 führt. Wenn ein mehrteiliger Upload nicht erfolgreich abgeschlossen werden kann, belegt der laufende Vorgang Ihren Bucket und es fallen Speichergebühren an. Wir empfehlen die folgenden Optionen, um eine übermäßige Dateispeicherung zu vermeiden:
+ Verwenden Sie für mit Amazon EMR verwendete Buckets eine Lebenszyklus-Konfigurationsregel in Amazon S3, um unvollständige mehrteilige Uploads drei Tage nach dem Startdatum des betreffenden Uploads zu entfernen. Mit Lebenszyklus-Konfigurationsregeln können Sie Speicherklasse und Lebensdauer von Objekten steuern. Weitere Informationen finden Sie unter [Verwaltung des Objektlebenszyklus](https://docs.aws.amazon.com/AmazonS3/latest/userguide/object-lifecycle-mgmt.html) und [Abbrechen unvollständiger mehrteiliger Uploads mit einer Bucket-Lebenszyklusrichtlinie](https://docs.aws.amazon.com/AmazonS3/latest/userguide/mpuoverview.html#mpu-abort-incomplete-mpu-lifecycle-config).
+ Sie aktivieren das Amazon-EMR-Feature für die Bereinigung mehrteiliger Uploads, indem Sie `fs.s3.multipart.clean.enabled` auf `true` festlegen und andere Bereinigungsparameter optimieren. Diese Funktion ist bei einem hohen Volumen, einem großem Umfang und Clustern mit begrenzte Betriebszeit nützlich. In diesem Fall ist der `DaysAfterIntitiation`-Parameter einer Lebenszyklus-Konfigurationsregel möglicherweise zu lang, selbst wenn er auf das Minimum eingestellt ist, was zu Spitzen im Amazon-S3-Speicher führt. Die mehrteilige Bereinigung von Amazon EMR ermöglicht eine genauere Steuerung. Weitere Informationen finden Sie unter [Konfigurieren von mehrteiligen Uploads für Amazon S3](#Config_Multipart). 

### Versionsmarkierungen verwalten
<a name="w2aac28c11c17c11b7c11b9"></a>

Sie sollten eine Lebenszyklus-Konfigurationsregel in Amazon S3 aktivieren, um abgelaufene Objektlöschmarkierungen für versionierte Buckets, die Sie mit Amazon EMR verwenden, zu entfernen. Beim Löschen eines Objekts in einem versionierten Bucket wird eine Löschmarkierung erstellt. Wenn anschließend alle vorherigen Versionen des Objekts ablaufen, verbleibt eine Löschmarkierung für abgelaufene Objekte im Bucket. Löschmarkierungen werden Ihnen zwar nicht berechnet, die Entfernung abgelaufener Löschmarkierungen kann jedoch die Leistung von LIST-Anfragen verbessern. Weitere Informationen finden Sie unter [Lebenszykluskonfiguration für einen Bucket mit Versionsverwaltung](https://docs.aws.amazon.com/AmazonS3/latest/userguide/lifecycle-configuration-bucket-with-versioning.html) im Benutzerhandbuch zu Amazon Simple Storage Service.

### Bewährte Methoden zur Leistungssteigerung
<a name="w2aac28c11c17c11b7c11c11"></a>

Je nach Workloads können bestimmte Nutzungsarten von EMR-Clustern und Anwendungen in diesen Clustern zu einer hohe Anzahl von Anfragen an einen Bucket führen. Weitere Informationen finden Sie unter [Erwägungen zur Anforderungsrate und Leistung](https://docs.aws.amazon.com/AmazonS3/latest/userguide/request-rate-perf-considerations.html) im *Benutzerhandbuch zu Amazon Simple Storage Service*. 

# Daten in Amazon S3 Express One Zone hochladen
<a name="emr-express-one-zone"></a>

## -Übersicht
<a name="emr-express-one-zone-overview"></a>

Mit Amazon EMR 6.15.0 und höher können Sie Amazon EMR mit Apache Spark in Verbindung mit der Speicherklasse [Amazon S3 Express One Zone](https://docs.aws.amazon.com/AmazonS3/latest/userguide/s3-express-one-zone.html) verwenden, um die Leistung Ihrer Spark-Aufträge zu verbessern. Amazon EMR-Versionen 7.2.0 und höher unterstützen HBase auch Flink und Hive, sodass Sie auch von S3 Express One Zone profitieren können, wenn Sie diese Anwendungen verwenden. *S3 Express One Zone* ist eine S3-Speicherklasse für Anwendungen, die häufig mit Hunderttausenden Anfragen pro Sekunde auf Daten zugreifen. Zum Zeitpunkt seiner Veröffentlichung bietet S3 Express One Zone den Cloud-Objektspeicher mit der niedrigsten Latenz und der höchsten Leistung in Amazon S3. 

## Voraussetzungen
<a name="emr-express-one-zone-prereqs"></a>
+ **Berechtigungen für S3 Express One Zone** – Wenn S3 Express One Zone eine Aktion wie `GET`, `LIST` oder `PUT` für ein Amazon-S3-Objekt aufruft, ruft die Speicherklasse `CreateSession` in Ihrem Namen auf. Ihre IAM-Richtlinie muss die `s3express:CreateSession`-Genehmigung zulassen, damit der S3A-Konnektor die `CreateSession`-API aufrufen kann. Ein Beispielrichtlinie mit dieser Berechtigung finden Sie unter [Erste Schritte mit Amazon S3 Express One Zone](#emr-express-one-zone-start).
+ **S3A-Konnektor** – Um Ihren Spark-Cluster für den Zugriff auf Daten aus einem Amazon-S3-Bucket zu konfigurieren, der die Speicherklasse S3 Express One Zone verwendet, müssen Sie den Apache-Hadoop-Konnektor S3A verwenden. Um den Connector zu verwenden, stellen Sie sicher, dass alle S3 URIs das Schema verwenden. `s3a` Wenn dies nicht der Fall ist, können Sie die Dateisystemimplementierung, die Sie für `s3`- und `s3n`-Schemata verwenden, ändern.

Um das `s3`-Schema zu ändern, geben Sie die folgenden Clusterkonfigurationen an: 

```
[
  {
    "Classification": "core-site",
    "Properties": {
      "fs.s3.impl": "org.apache.hadoop.fs.s3a.S3AFileSystem",
      "fs.AbstractFileSystem.s3.impl": "org.apache.hadoop.fs.s3a.S3A"
    }
  }
]
```

Um das `s3n`-Schema zu ändern, geben Sie die folgenden Clusterkonfigurationen an: 

```
[
  {
    "Classification": "core-site",
    "Properties": {
      "fs.s3n.impl": "org.apache.hadoop.fs.s3a.S3AFileSystem",
      "fs.AbstractFileSystem.s3n.impl": "org.apache.hadoop.fs.s3a.S3A"
    }
  }
]
```

## Erste Schritte mit Amazon S3 Express One Zone
<a name="emr-express-one-zone-start"></a>

**Topics**
+ [Eine Berechtigungsrichtlinie erstellen](#emr-express-one-zone-permissions)
+ [Ihren Cluster erstellen und konfigurieren](#emr-express-one-zone-create)
+ [Konfigurationsübersicht](#emr-express-one-zone-configs)

### Eine Berechtigungsrichtlinie erstellen
<a name="emr-express-one-zone-permissions"></a>

Bevor Sie einen Cluster erstellen können, der Amazon S3 Express One Zone verwendet, müssen Sie eine IAM-Richtlinie erstellen, die an das Amazon-EC2-Instance-Profil für den Cluster angefügt wird. Die Richtlinie muss über Berechtigungen für den Zugriff auf die Speicherklasse S3 Express One Zone verfügen. Die folgende Beispielrichtlinie zeigt, wie die erforderliche Berechtigung gewährt wird. Nachdem Sie die Richtlinie erstellt haben, ordnen Sie die Richtlinie der Instance-Profilrolle zu, mit der Sie Ihren EMR-Cluster erstellen, wie im Abschnitt [Ihren Cluster erstellen und konfigurieren](#emr-express-one-zone-create) beschrieben.

------
#### [ JSON ]

****  

```
{
  "Version":"2012-10-17",		 	 	 
  "Statement": [
    {
      "Effect": "Allow",
      "Resource": [
        "arn:aws:s3express:*:123456789012:bucket/example-s3-bucket"
      ],
      "Action": [
        "s3express:CreateSession"
      ],
      "Sid": "AllowS3EXPRESSCreatesession"
    }
  ]
}
```

------

### Ihren Cluster erstellen und konfigurieren
<a name="emr-express-one-zone-create"></a>

Erstellen Sie als Nächstes einen Cluster, auf dem Spark HBase, Flink oder Hive mit S3 Express One Zone ausgeführt wird. Die folgenden Schritte beschreiben einen allgemeinen Überblick über die Erstellung eines Clusters in der AWS-Managementkonsole:

1. Navigieren Sie zur Amazon-EMR-Konsole und wählen Sie in der Seitenleiste **Cluster** aus. Wählen Sie dann **Create cluster** (Cluster erstellen) aus.

1. Wenn Sie Spark verwenden, wählen Sie Amazon EMR-Version `emr-6.15.0` oder höher. Wenn Sie Flink oder Hive verwenden HBase, wählen Sie `emr-7.2.0` eine höhere Version.

1. Wählen Sie die Anwendungen aus, die Sie in Ihren Cluster aufnehmen möchten, z. B. Spark oder HBase Flink.

1. Um Amazon S3 Express One Zone zu aktivieren, geben Sie im Abschnitt **Softwareeinstellungen** eine Konfiguration ein, die dem folgenden Beispiel ähnelt. Die Konfigurationen und empfohlenen Werte werden in dem Abschnitt [Konfigurationsübersicht](#emr-express-one-zone-configs) beschrieben, der diesem Verfahren folgt.

   ```
   [
     {
       "Classification": "core-site",
       "Properties": {
         "fs.s3a.aws.credentials.provider": "software.amazon.awssdk.auth.credentials.InstanceProfileCredentialsProvider",
         "fs.s3a.change.detection.mode": "none",
         "fs.s3a.endpoint.region": "aa-example-1",
         "fs.s3a.select.enabled": "false"
       }
     },
     {
       "Classification": "spark-defaults",
       "Properties": {
         "spark.sql.sources.fastS3PartitionDiscovery.enabled": "false"
       }
     }
   ]
   ```

1. Wählen Sie im Abschnitt **EC2-Instance-Profil für Amazon EMR** aus, ob Sie eine vorhandene Rolle und eine Rolle mit der angehängten Richtlinie verwenden möchten, die Sie im obigen Abschnitt [Eine Berechtigungsrichtlinie erstellen](#emr-express-one-zone-permissions) erstellt haben.

1. Konfigurieren Sie die restlichen Cluster-Einstellungen entsprechend Ihrer Anwendung und wählen Sie dann **Create cluster** (Cluster erstellen) aus.

### Konfigurationsübersicht
<a name="emr-express-one-zone-configs"></a>

In den folgenden Tabellen werden die Konfigurationen und vorgeschlagenen Werte beschrieben, die Sie angeben sollten, wenn Sie einen Cluster einrichten, der S3 Express One Zone mit Amazon EMR verwendet, wie im Abschnitt [Ihren Cluster erstellen und konfigurieren](#emr-express-one-zone-create) beschrieben.

**S3A-Konfigurationen**


| Parameter | Standardwert | Empfohlener Wert | Erklärung | 
| --- | --- | --- | --- | 
|  `fs.s3a.aws.credentials.provider`  |  Wenn nicht angegeben, wird `AWSCredentialProviderList` in der folgenden Reihenfolge verwendet: `TemporaryAWSCredentialsProvider`, `SimpleAWSCredentialsProvider`, `EnvironmentVariableCredentialsProvider`, `IAMInstanceCredentialsProvider`.  |  <pre>software.amazon.awssdk.auth.credentials.InstanceProfileCredentialsProvider</pre>  |  Die Amazon-EMR-Instance-Profilrolle sollte die Richtlinie haben, die es dem S3A-Dateisystem ermöglicht, `s3express:CreateSession` aufzurufen. Andere Anmeldeinformationsanbieter sind ebenfalls möglich, wenn sie über die Berechtigungen für S3 Express One Zone verfügen.  | 
|  `fs.s3a.endpoint.region`  |  Null  |  Der AWS-Region Ort, an dem Sie den Bucket erstellt haben.  |  Die Logik zur Regionsauflösung funktioniert nicht mit der Speicherklasse S3 Express One Zone.  | 
|  `fs.s3a.select.enabled`  |  `true`  |  `false`  |  Amazon S3 `select` wird mit der Speicherklasse S3 Express One Zone nicht unterstützt.  | 
|  `fs.s3a.change.detection.mode`  |  `server`  |  Keine  |  Die Änderungserkennung von S3A erfolgt, indem MD5-basierte `etags` geprüft werden. Die Speicherklasse S3 Express One Zone unterstützt MD5 `checksums` nicht.  | 

**Spark-Konfigurationen**


| Parameter | Standardwert | Empfohlener Wert | Erklärung | 
| --- | --- | --- | --- | 
|  `spark.sql.sources.fastS3PartitionDiscovery.enabled`  |  `true`  |  false  |  Die interne Optimierung verwendet einen S3-API-Parameter, den die Speicherklasse S3 Express One Zone nicht unterstützt.  | 

**Hive-Konfigurationen**


| Parameter | Standardwert | Empfohlener Wert | Erklärung | 
| --- | --- | --- | --- | 
|  `hive.exec.fast.s3.partition.discovery.enabled`  |  `true`  |  false  |  Die interne Optimierung verwendet einen S3-API-Parameter, den die Speicherklasse S3 Express One Zone nicht unterstützt.  | 

## Überlegungen
<a name="emr-express-one-zone-considerations"></a>

Beachten Sie Folgendes, wenn Sie Apache Spark in Amazon EMR in die Speicherklasse S3 Express One Zone integrieren:
+ Der S3A-Konnektor ist erforderlich, um S3 Express One Zone mit Amazon EMR zu verwenden. Nur S3A verfügt über die Features und Speicherklassen, die für die Interaktion mit S3 Express One Zone erforderlich sind. Schritte zum Einrichten des Konnektors finden Sie unter [Voraussetzungen](#emr-express-one-zone-prereqs).
+ Die Speicherklasse Amazon S3 Express One Zone unterstützt SSE-S3 SSE-KMS Verschlüsselung. Weitere Informationen finden Sie unter [Serverseitige Verschlüsselung mit Amazon S3](https://docs.aws.amazon.com/AmazonS3/latest/userguide/s3-express-data-protection.html#s3-express-ecnryption).
+ Die Speicherklasse Amazon S3 Express One Zone unterstützte keine Schreibvorgänge mit dem S3A `FileOutputCommitter`. Schreibvorgänge mit dem S3A `FileOutputCommitter` in Buckets von S3 Express One Zone führen zu einem Fehler: *InvalidStorageClass: The storage class you specified is not valid*.
+ Amazon S3 Express One Zone wird mit Amazon EMR-Versionen 6.15.0 und höher auf EMR auf EC2 unterstützt. Darüber hinaus wird es auf Amazon EMR-Versionen 7.2.0 und höher, auf Amazon EMR auf EKS und auf Amazon EMR Serverless unterstützt.

# Laden Sie Daten hoch mit AWS DataSync
<a name="emr-plan-upload-datasync"></a>

AWS DataSync ist ein Online-Datenübertragungsservice, der den Prozess der Übertragung von Daten zwischen Ihrem lokalen Speicher und Speicherdiensten oder zwischen AWS Speicherdiensten vereinfacht, automatisiert und beschleunigt. AWS DataSync unterstützt eine Vielzahl von lokalen Speichersystemen wie Hadoop Distributed File System (HDFS), NAS-Dateiserver und selbstverwalteten Objektspeicher.

Der gängigste Weg, Daten auf einen Cluster zu übertragen, besteht darin, die Daten auf Amazon S3 hochzuladen und die integrierten Features von Amazon EMR zu verwenden, um die Daten auf Ihren Cluster zu laden.

DataSync kann Ihnen helfen, die folgenden Aufgaben zu erledigen:
+ Replizieren Sie HDFS auf Ihrem Hadoop-Cluster auf Amazon S3 für Geschäftskontinuität
+ HDFS nach Amazon S3 kopieren, um Ihre Data Lakes zu füllen
+ Daten zwischen dem HDFS Ihres Hadoop-Clusters und Amazon S3 zur Analyse und Verarbeitung übertragen

Um Daten in Ihren S3-Bucket hochzuladen, setzen Sie zunächst einen oder mehrere DataSync Agenten im selben Netzwerk ein, in dem sich Ihr lokaler Speicher befindet. Ein *Agent* ist eine virtuelle Maschine (VM), die zum Lesen von Daten oder zum Schreiben von Daten an einem selbstverwalteten Speicherort verwendet wird. Anschließend aktivieren Sie Ihre Agenten in dem AWS-Konto und AWS-Region wo sich Ihr S3-Bucket befindet.

Nachdem Ihr Agent aktiviert wurde, erstellen Sie einen Quellstandort für Ihren On-Premises-Speicher, einen Zielort für Ihren S3-Bucket und eine Aufgabe. Eine *Aufgabe* ist ein Satz von zwei Speicherorten (Quelle und Ziel) und eine Reihe von Standardoptionen, die Sie verwenden, um das Verhalten der Aufgabe zu steuern.

Schließlich führen Sie Ihre DataSync Aufgabe aus, um Daten von der Quelle zum Ziel zu übertragen. 

Weitere Informationen finden Sie unter [Erste Schritte mit AWS DataSync](https://docs.aws.amazon.com/datasync/latest/userguide/getting-started.html).

# Dateien mit verteiltem Cache mit Amazon EMR importieren
<a name="emr-plan-input-distributed-cache"></a>

DistributedCache ist ein Hadoop-Feature, das die Effizienz erhöhen kann, wenn eine Zuordnungs- oder Reduzierungs-Aufgabe Zugriff auf allgemeine Daten benötigt. Wenn Ihr Cluster von vorhandenen Anwendungen oder Binärdateien abhängt, die bei der Erstellung des Clusters nicht installiert sind, können Sie den DistributedCache zum Importieren dieser Dateien verwenden. Mit dieser Funktion kann ein Cluster-Knoten die importierten Dateien aus seinem lokalen Dateisystem lesen, anstatt die Dateien von anderen Cluster-Knoten abzurufen. 

Weitere Informationen finden Sie unter [http://hadoop.apache. org/docs/stable/api/org/apache/hadoop/filecache/DistributedCache](http://hadoop.apache.org/docs/stable/api/org/apache/hadoop/filecache/DistributedCache.html).html.

Sie rufen den DistributedCache beim Erstellen des Clusters auf. Die Dateien werden vor dem Starten des Hadoop-Auftrags nur für die Dauer des Auftrags im Cache zwischengespeichert. Sie können Dateien, die in einem beliebigen Hadoop-kompatiblen Dateisystem wie HDFS oder Amazon S3 gespeichert sind, im Cache zwischenspeichern. Die Standardgröße des Datei-Caches ist 10 GB. Zum Ändern der Größe des Caches konfigurieren Sie den Hadoop-Parameter `local.cache.size` mithilfe der Bootstrap-Aktion neu. Weitere Informationen finden Sie unter [Erstellen Sie Bootstrap-Aktionen, um zusätzliche Software mit einem Amazon EMR-Cluster zu installieren](emr-plan-bootstrap.md).

**Topics**
+ [Unterstützte Dateitypen](#emr-dev-supported-file-types)
+ [Speicherort der zwischengespeicherten Dateien](#locationofcache)
+ [Auf zwischengespeicherte Dateien über Streaming-Anwendungen zugreifen](#cachemapper)
+ [Auf zwischengespeicherte Dateien über Streaming-Anwendungen zugreifen](#cacheinconsole)

## Unterstützte Dateitypen
<a name="emr-dev-supported-file-types"></a>

Der DistributedCache lässt sowohl einzelne Dateien als auch Archive zu. Einzelne Dateien werden schreibgeschützt zwischengespeichert. Für ausführbare und Binärdateien werden Ausführungsberechtigungen festgelegt.

Archive sind eine oder mehrere Dateien, die mit einem Hilfsprogramm verpackt wurden, z. B. `gzip`. DistributedCache übergibt die komprimierten Dateien an jeden Core-Knoten und dekomprimiert das Archiv im Rahmen der Zwischenspeicherung. DistributedCacheunterstützt die folgenden Komprimierungsformate:
+ zip
+ tgz
+ tar.gz
+ tar
+ jar

## Speicherort der zwischengespeicherten Dateien
<a name="locationofcache"></a>

DistributedCache kopiert Dateien nur auf Core-Knoten. Wenn es im Cluster keine Core-Knoten gibt, kopiert der DistributedCache die Dateien zum Primärknoten.

Der DistributedCache weist die Cache-Dateien dem aktuellen Arbeitsverzeichnis des Mappers und Reducers mithilfe von symbolischen Links zu. Ein symbolischer Link (symlink) ist ein Alias für einen Dateispeicherort, nicht der tatsächliche Speicherort. Der Wert des Parameters, `yarn.nodemanager.local-dirs` in `yarn-site.xml`, gibt den Speicherort der temporären Dateien an. Amazon EMR legt diesen Parameter auf `/mnt/mapred` oder eine Variante basierend auf dem Instance-Typ und der EMR-Version fest. Eine Einstellung kann die Werte `/mnt/mapred` und `/mnt1/mapred` haben, da der Instance-Typ über zwei flüchtige Volumes verfügt. Cache-Dateien befinden sich in einem Unterverzeichnis des Speicherorts für temporäre Dateien unter `/mnt/mapred/taskTracker/archive`. 

Wenn Sie eine einzelne Datei zwischenspeichern wird sie über den DistributedCache im Verzeichnis `archive` abgelegt. Wenn Sie ein Archiv zwischenspeichern, wird sie vom DistributedCache dekomprimiert und es wird im `/archive` ein Unterverzeichnis mit demselben Namen wie dem Archivdateinamen erstellt. Die einzelnen Dateien befinden sich im neuen Unterverzeichnis.

Sie können den DistributedCache nur bei Verwendung von Streaming verwenden.

## Auf zwischengespeicherte Dateien über Streaming-Anwendungen zugreifen
<a name="cachemapper"></a>

Um aus Ihren Mapper- oder Reducer-Anwendungen auf die zwischengespeicherten Dateien zugreifen zu können, müssen Sie Ihrem Anwendungspfad das aktuelle Arbeitsverzeichnis (./) hinzufügen und die zwischengespeicherten Dateien so referenzieren, als würden sie sich im aktuellen Arbeitsverzeichnis befinden.

## Auf zwischengespeicherte Dateien über Streaming-Anwendungen zugreifen
<a name="cacheinconsole"></a>

Sie können die AWS-Managementkonsole und die verwenden, um Cluster AWS CLI zu erstellen, die den verteilten Cache verwenden. 

------
#### [ Console ]

**So geben Sie verteilte Cache-Dateien mithilfe der neuen Konsole an**

1. Melden Sie sich bei der AWS-Managementkonsole an und öffnen Sie die Amazon EMR-Konsole unter [https://console.aws.amazon.com/emr](https://console.aws.amazon.com/emr).

1. Wählen Sie im linken Navigationsbereich unter **EMR in EC2** die Option **Cluster** und dann **Cluster erstellen** aus.

1. Wählen Sie unter **Schritte** die Option **Schritt hinzufügen** aus. Dadurch wird das Dialogfeld **Schritt hinzufügen** geöffnet. Geben Sie im Feld **Argumente** die Dateien und Archive an, die im Cache gespeichert werden sollen. Die Größe der Datei (oder Gesamtgröße der Dateien in einer Archivdatei) muss geringer sein als die zugewiesene Cachegröße.

   Wenn Sie eine einzelne Datei zum verteilten Cache hinzufügen möchten, geben Sie `-cacheFile` an, gefolgt vom Namen und Speicherort der Datei, dem Rautenzeichen (\$1) und dem Namen, den Sie der Datei geben möchten, wenn sie im lokalen Cache abgelegt wird. Im folgenden Beispiel wird gezeigt, wie eine einzelne Datei zum verteilten Cache hinzugefügt wird.

   ```
   -cacheFile \
   s3://amzn-s3-demo-bucket/file-name#cache-file-name
   ```

   Geben Sie `-cacheArchive` gefolgt von dem Speicherort der Dateien in Amazon S3, dem Rautenzeichen (\$1) und dann dem Namen ein, den Sie der Sammlung von Dateien im verteilten Cache geben möchten. Im folgenden Beispiel wird gezeigt, wie eine einzelne Datei zum verteilten Cache hinzugefügt wird.

   ```
   -cacheArchive \
   s3://amzn-s3-demo-bucket/archive-name#cache-archive-name
   ```

   Geben Sie die entsprechenden Werte in die anderen Dialogfelder ein. Die Optionen unterscheiden sich je nach Schritttyp. Um Ihren Schritt hinzuzufügen und das Dialogfeld zu verlassen, wählen Sie **Schritt hinzufügen**.

1. Wählen Sie alle anderen Optionen aus, die für Ihren Cluster gelten. 

1. Um Ihren Cluster jetzt zu starten, wählen Sie **Cluster erstellen** aus.

------
#### [ CLI ]

**Um verteilte Cache-Dateien mit dem AWS CLI**
+ Um einen Streaming-Schritt beim Erstellen eines Clusters zu senden, geben Sie den Befehl `create-cluster` mit dem Parameter `--steps` ein. Um verteilte Cachedateien mithilfe von anzugeben AWS CLI, geben Sie beim Absenden eines Streaming-Schritts die entsprechenden Argumente an. 

  Wenn Sie eine einzelne Datei zum verteilten Cache hinzufügen möchten, geben Sie `-cacheFile` an, gefolgt vom Namen und Speicherort der Datei, dem Rautenzeichen (\$1) und dem Namen, den Sie der Datei geben möchten, wenn sie im lokalen Cache abgelegt wird. 

  Geben Sie `-cacheArchive` gefolgt von dem Speicherort der Dateien in Amazon S3, dem Rautenzeichen (\$1) und dann dem Namen ein, den Sie der Sammlung von Dateien im verteilten Cache geben möchten. Im folgenden Beispiel wird gezeigt, wie eine einzelne Datei zum verteilten Cache hinzugefügt wird.

  Weitere Informationen zur Verwendung von Amazon EMR-Befehlen finden Sie AWS CLI unter[https://docs.aws.amazon.com/cli/latest/reference/emr](https://docs.aws.amazon.com/cli/latest/reference/emr).

**Example 1**  
Geben Sie den folgenden Befehl zum Starten eines Clusters und zum Senden eines Streaming-Schritts ein, der `-cacheFile` zum Hinzufügen einer Datei, `sample_dataset_cached.dat`, zum Cache verwendet.   

```
aws emr create-cluster --name "Test cluster" --release-label emr-4.0.0 --applications Name=Hive Name=Pig --use-default-roles --ec2-attributes KeyName=myKey --instance-type m5.xlarge --instance-count 3 --steps Type=STREAMING,Name="Streaming program",ActionOnFailure=CONTINUE,Args=["--files","s3://my_bucket/my_mapper.py s3://my_bucket/my_reducer.py","-mapper","my_mapper.py","-reducer","my_reducer.py,"-input","s3://my_bucket/my_input","-output","s3://my_bucket/my_output", "-cacheFile","s3://my_bucket/sample_dataset.dat#sample_dataset_cached.dat"]
```
Wenn Sie die Instance-Anzahl ohne den `--instance-groups`-Parameter angeben, wird ein einzelner Primärknoten gestartet. Die verbleibenden Instances werden dabei als Core-Knoten gestartet. Alle Knoten verwenden den im Befehl angegebenen Instance-Typ.  
Wenn Sie zuvor nicht die standardmäßige EMR-Servicerolle und das EC2-Instance-Profil erstellt haben, geben Sie `aws emr create-default-roles` ein, um sie zu erstellen, bevor Sie den Unterbefehl `create-cluster` eingeben.

**Example 2**  
Der folgende Befehl erstellt einen Streaming-Cluster und verwendet `-cacheArchive`, um dem Cache ein Dateiarchiv hinzuzufügen.   

```
aws emr create-cluster --name "Test cluster" --release-label emr-4.0.0 --applications Name=Hive Name=Pig --use-default-roles --ec2-attributes KeyName=myKey --instance-type m5.xlarge --instance-count 3 --steps Type=STREAMING,Name="Streaming program",ActionOnFailure=CONTINUE,Args=["--files","s3://my_bucket/my_mapper.py s3://my_bucket/my_reducer.py","-mapper","my_mapper.py","-reducer","my_reducer.py,"-input","s3://my_bucket/my_input","-output","s3://my_bucket/my_output", "-cacheArchive","s3://my_bucket/sample_dataset.tgz#sample_dataset_cached"]
```
Wenn Sie die Instance-Anzahl ohne den `--instance-groups`-Parameter angeben, wird ein einzelner Primärknoten gestartet. Die verbleibenden Instances werden dabei als Core-Knoten gestartet. Alle Knoten verwenden den im Befehl angegebenen Instance-Typ.  
Wenn Sie zuvor nicht die standardmäßige EMR-Servicerolle und das EC2-Instance-Profil erstellt haben, geben Sie `aws emr create-default-roles` ein, um sie zu erstellen, bevor Sie den Unterbefehl `create-cluster` eingeben.

------

# Erkennung und Verarbeitung komprimierter Dateien mit Amazon EMR
<a name="HowtoProcessGzippedFiles"></a>

Hadoop überprüft die Dateierweiterung zur Erkennung von komprimierten Dateien. Folgende Komprimierungstypen werden von Hadoop unterstützt: gzip, bzip2 und LZO. Sie müssen keine zusätzlichen Schritte ausführen, um Dateien dieser Komprimierungstypen zu extrahieren, da Hadoop diesen Vorgang für Sie erledigt.

[Um LZO-Dateien zu indizieren, können Sie die Hadoop-LZO-Bibliothek verwenden, die von hadoop-lzo heruntergeladen werden kann. https://github.com/kevinweil/](https://github.com/kevinweil/hadoop-lzo) Beachten Sie, dass es sich um eine Drittanbieter-Bibliothek handelt. Amazon EMR bietet daher keinen Entwickler-Support bei Verwendung dieses Tools. Informationen zur Nutzung finden Sie in der [Readme-Datei für hadoop-lzo](https://github.com/kevinweil/hadoop-lzo/blob/master/README.md). 

# DynamoDB-Daten mit Amazon EMR in Hive importieren
<a name="emr-plan-input-dynamodb"></a>

Die von Amazon EMR bereitgestellte Hive-Implementierung enthält Funktionalität, die Sie zum Importieren und Exportieren von Daten zwischen DynamoDB und einem Amazon-EMR-Cluster verwenden können. Dies ist nützlich, wenn Ihre Eingabedaten in DynamoDB gespeichert sind. Weitere Informationen finden Sie unter [Exportieren, Importieren, Abfragen und Verknüpfen von Tabellen in DynamoDB mit Amazon EMR](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/EMRforDynamoDB.html). 

# Connect zu Daten mit Amazon EMR AWS Direct Connect her
<a name="emr-plan-input-directconnect"></a>

Direct Connect ist ein Service, mit dem Sie von Ihrem Rechenzentrum, Büro oder Ihrer Colocation-Umgebung aus eine private, dedizierte Netzwerkverbindung zu Amazon Web Services herstellen können. Wenn Sie über große Mengen an Eingabedaten verfügen, Direct Connect kann die Verwendung Ihre Netzwerkkosten senken, den Bandbreitendurchsatz erhöhen und ein einheitlicheres Netzwerkerlebnis bieten als internetbasierte Verbindungen. Weitere Informationen finden Sie im [Direct Connect -Benutzerhandbuch](https://docs.aws.amazon.com/directconnect/latest/UserGuide/). 

# Laden Sie große Datenmengen für Amazon EMR hoch mit AWS Snowball Edge
<a name="emr-plan-input-snowball"></a>

AWS Snowball Edge ist ein Service, mit dem Sie große Datenmengen schnell zwischen Amazon Simple Storage Service (Amazon S3) und Ihrem Datenspeicherort vor Ort übertragen faster-than-internet können. Snowball Edge unterstützt zwei Auftragstypen: Importaufträge und Exportaufträge. Importaufträge beinhalten eine Datenübertragung von einer On-Premises-Quelle zu einem Amazon-S3-Bucket. Exportaufträge beinhalten eine Datenübertragung aus einem Amazon-S3-Bucket zu einer On-Premises-Quelle. Bei beiden Auftragstypen sichern und schützen Snowball Edge-Geräte Ihre Daten, während regionale Spediteure sie zwischen Amazon S3 und Ihrem Datenspeicherort vor Ort transportieren. Snowball Edge-Geräte sind physisch robust und werden durch die AWS Key Management Service (AWS KMS) geschützt. Weitere Informationen finden Sie im [AWS Snowball Edge -Edge-Entwicklerhandbuch](https://docs.aws.amazon.com/snowball/latest/developer-guide/).