Hochladen von Daten in Amazon S3 Express One Zone mit Amazon EMR auf EKS

Mit den Amazon EMR-Versionen 7.2.0 und höher können Sie Amazon EMR auf EKS mit der Amazon S3 Express One Zone-Speicherklasse verwenden, um die Leistung bei der Ausführung von Jobs und Workloads zu verbessern. S3 Express One Zone ist eine leistungsstarke Amazon S3 S3-Speicherklasse mit einer Zone, die für die meisten latenzempfindlichen Anwendungen einen konsistenten Datenzugriff im einstelligen Millisekundenbereich bietet. Zum Zeitpunkt seiner Veröffentlichung bietet S3 Express One Zone den Cloud-Objektspeicher mit der niedrigsten Latenz und der höchsten Leistung in Amazon S3.

Voraussetzungen

Bevor Sie S3 Express One Zone mit Amazon EMR auf EKS verwenden können, müssen Sie die folgenden Voraussetzungen erfüllen:

Die Einrichtung von Amazon EMR auf EKS wurde abgeschlossen.
Nachdem Sie Amazon EMR auf EKS eingerichtet haben, erstellen Sie einen virtuellen Cluster.

Erste Schritte mit S3 Express One Zone

Folgen Sie diesen Schritten, um mit S3 Express One Zone zu beginnen

Fügen Sie die CreateSession Berechtigung zu Ihrer Jobausführungsrolle hinzu. Wenn S3 Express One Zone anfänglich eine Aktion wie GETLIST, oder PUT an einem S3-Objekt ausführt, ruft die Speicherklasse in Ihrem Namen CreateSession auf. Im Folgenden finden Sie ein Beispiel dafür, wie Sie die CreateSession Genehmigung erteilen können.
JSON
{ "Version":"2012-10-17", "Statement": [ { "Effect": "Allow", "Resource": [ "arn:aws:s3express:*:*:bucket/DOC-EXAMPLE-BUCKET" ], "Action": [ "s3express:CreateSession" ], "Sid": "AllowS3EXPRESSCreatesession" } ] }
Sie müssen den Apache Hadoop Connector S3A verwenden, um auf die S3 Express-Buckets zuzugreifen, also ändern Sie Ihren Amazon S3 so, dass er das s3a Schema URIs für die Verwendung des Connectors verwendet. Wenn sie das Schema nicht verwenden, können Sie die Dateisystemimplementierung, die Sie für und die Schemas verwenden, ändern. s3 s3n

Um das s3-Schema zu ändern, geben Sie die folgenden Clusterkonfigurationen an:
```
[
  {
    "Classification": "core-site",
    "Properties": {
      "fs.s3.impl": "org.apache.hadoop.fs.s3a.S3AFileSystem",
      "fs.AbstractFileSystem.s3.impl": "org.apache.hadoop.fs.s3a.S3A"
    }
  }
]
```
Um das s3n-Schema zu ändern, geben Sie die folgenden Clusterkonfigurationen an:
```
[
  {
    "Classification": "core-site",
    "Properties": {
      "fs.s3n.impl": "org.apache.hadoop.fs.s3a.S3AFileSystem",
      "fs.AbstractFileSystem.s3n.impl": "org.apache.hadoop.fs.s3a.S3A"
    }
  }
]
```

Verwenden Sie in Ihrer Spark-Submit-Konfiguration den Web Identity Credential Provider.


"spark.hadoop.fs.s3a.aws.credentials.provider=com.amazonaws.auth.WebIdentityTokenCredentialsProvider"

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Interaktiven Endpunkt löschen

Überwachen von Aufträgen