Téléchargement de données dans Amazon S3 Express One Zone avec Amazon EMR sur EKS

Avec les versions 7.2.0 et supérieures d'Amazon EMR, vous pouvez utiliser Amazon EMR sur EKS avec la classe de stockage Amazon S3 Express One Zone pour améliorer les performances lorsque vous exécutez des tâches et des charges de travail. S3 Express One Zone est une classe de stockage Amazon S3 à zone unique à hautes performances qui fournit un accès aux données constant à un chiffre en millisecondes pour la plupart des applications sensibles à la latence. À son lancement, S3 Express One Zone offre la latence la plus faible et les meilleures performances de stockage d’objets cloud dans Amazon S3.

Prérequis

Avant de pouvoir utiliser S3 Express One Zone avec Amazon EMR sur EKS, vous devez remplir les conditions préalables suivantes :

Configuration d'Amazon EMR sur EKS terminée.
Après avoir configuré Amazon EMR sur EKS, créez un cluster virtuel.

Bien démarrer avec S3 Express One Zone

Suivez ces étapes pour commencer à utiliser S3 Express One Zone

Ajoutez l'CreateSessionautorisation à votre rôle d'exécution des tâches. Lorsque S3 Express One Zone exécute initialement une action telle que GET ou PUT sur un objet S3, la classe de stockage appelle CreateSession en votre nom. LIST Voici un exemple de la procédure à suivre pour accorder l'CreateSessionautorisation.
JSON
{ "Version":"2012-10-17", "Statement": [ { "Effect": "Allow", "Resource": [ "arn:aws:s3express:*:*:bucket/DOC-EXAMPLE-BUCKET" ], "Action": [ "s3express:CreateSession" ], "Sid": "AllowS3EXPRESSCreatesession" } ] }
Vous devez utiliser le connecteur Apache Hadoop S3A pour accéder aux compartiments S3 Express. Modifiez donc votre Amazon S3 URIs pour utiliser le s3a schéma d'utilisation du connecteur. S'ils n'utilisent pas le schéma, vous pouvez modifier l'implémentation du système de fichiers que vous utilisez pour s3 et les s3n schémas.

Pour modifier le schéma s3, spécifiez les configurations de cluster suivantes :
```
[
  {
    "Classification": "core-site",
    "Properties": {
      "fs.s3.impl": "org.apache.hadoop.fs.s3a.S3AFileSystem",
      "fs.AbstractFileSystem.s3.impl": "org.apache.hadoop.fs.s3a.S3A"
    }
  }
]
```
Pour modifier le schéma s3n, spécifiez les configurations de cluster suivantes :
```
[
  {
    "Classification": "core-site",
    "Properties": {
      "fs.s3n.impl": "org.apache.hadoop.fs.s3a.S3AFileSystem",
      "fs.AbstractFileSystem.s3n.impl": "org.apache.hadoop.fs.s3a.S3A"
    }
  }
]
```
Dans votre configuration Spark-Submit, utilisez le fournisseur d'informations d'identification d'identité Web.
```
"spark.hadoop.fs.s3a.aws.credentials.provider=com.amazonaws.auth.WebIdentityTokenCredentialsProvider"
```

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Suppression du point de terminaison interactif

Surveillance des tâches