Caricamento di dati in Amazon S3 Express One Zone con Amazon EMR su EKS

Con le versioni 7.2.0 e successive di Amazon EMR, puoi utilizzare Amazon EMR su EKS con la classe di storage Amazon S3 Express One Zone per migliorare le prestazioni durante l'esecuzione di job e carichi di lavoro. S3 Express One Zone è una classe di storage Amazon S3 a zona singola ad alte prestazioni che offre un accesso ai dati coerente a una cifra in millisecondi per la maggior parte delle applicazioni sensibili alla latenza. Al momento del suo rilascio, S3 Express One Zone offre lo storage di oggetti cloud con la latenza più bassa e le prestazioni più elevate in Amazon S3.

Prerequisiti

Prima di poter utilizzare S3 Express One Zone con Amazon EMR su EKS, devi avere i seguenti prerequisiti:

Configurazione di Amazon EMR su EKS completata.
Dopo aver configurato Amazon EMR su EKS, crea un cluster virtuale.

Nozioni di base su S3 Express One Zone

Segui questi passaggi per iniziare a usare S3 Express One Zone

Aggiungi l'CreateSessionautorizzazione al tuo ruolo di esecuzione del lavoro. Quando S3 Express One Zone esegue inizialmente un'azione simile GET o PUT su un oggetto S3, la classe di storage chiama per tuo CreateSession conto. LIST Di seguito è riportato un esempio di come concedere l'CreateSessionautorizzazione.
JSON
{ "Version":"2012-10-17", "Statement": [ { "Effect": "Allow", "Resource": [ "arn:aws:s3express:*:*:bucket/DOC-EXAMPLE-BUCKET" ], "Action": [ "s3express:CreateSession" ], "Sid": "AllowS3EXPRESSCreatesession" } ] }

È necessario utilizzare il connettore Apache Hadoop S3A per accedere ai bucket S3 Express, quindi cambia Amazon S3 per utilizzare lo schema di utilizzo del connettore. URIs s3a Se non utilizzano lo schema, puoi modificare l'implementazione e gli schemi del file system utilizzati. s3 s3n

Per modificare lo schema s3, specifica le seguenti configurazioni del cluster:


[
  {
    "Classification": "core-site",
    "Properties": {
      "fs.s3.impl": "org.apache.hadoop.fs.s3a.S3AFileSystem",
      "fs.AbstractFileSystem.s3.impl": "org.apache.hadoop.fs.s3a.S3A"
    }
  }
]

Per modificare lo schema s3n, specifica le seguenti configurazioni del cluster:


[
  {
    "Classification": "core-site",
    "Properties": {
      "fs.s3n.impl": "org.apache.hadoop.fs.s3a.S3AFileSystem",
      "fs.AbstractFileSystem.s3n.impl": "org.apache.hadoop.fs.s3a.S3A"
    }
  }
]

Nella tua configurazione spark-submit, usa il provider di credenziali di identità web.


"spark.hadoop.fs.s3a.aws.credentials.provider=com.amazonaws.auth.WebIdentityTokenCredentialsProvider"

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Eliminazione di un endpoint interattivo

Monitoraggio dei processi