Caricamento di dati in Amazon S3 Express One Zone con Amazon EMR su EKS - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Caricamento di dati in Amazon S3 Express One Zone con Amazon EMR su EKS

Con le versioni 7.2.0 e successive di Amazon EMR, puoi utilizzare Amazon EMR su EKS con la classe di storage Amazon S3 Express One Zone per migliorare le prestazioni durante l'esecuzione di job e carichi di lavoro. S3 Express One Zone è una classe di storage Amazon S3 a zona singola ad alte prestazioni che offre un accesso ai dati coerente a una cifra in millisecondi per la maggior parte delle applicazioni sensibili alla latenza. Al momento del suo rilascio, S3 Express One Zone offre lo storage di oggetti cloud con la latenza più bassa e le prestazioni più elevate in Amazon S3.

Prerequisiti

Prima di poter utilizzare S3 Express One Zone con Amazon EMR su EKS, devi avere i seguenti prerequisiti:

Nozioni di base su S3 Express One Zone

Segui questi passaggi per iniziare a usare S3 Express One Zone

  1. Aggiungi l'CreateSessionautorizzazione al tuo ruolo di esecuzione del lavoro. Quando S3 Express One Zone esegue inizialmente un'azione simile GET o PUT su un oggetto S3, la classe di storage chiama per tuo CreateSession conto. LIST Di seguito è riportato un esempio di come concedere l'CreateSessionautorizzazione.

    JSON
    { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Resource": "arn:aws:s3express:<AWS_REGION>:<ACCOUNT_ID>:bucket/DOC-EXAMPLE-BUCKET", "Action": [ "s3express:CreateSession" ] } ] }
  2. È necessario utilizzare il connettore Apache Hadoop S3A per accedere ai bucket S3 Express, quindi cambia Amazon S3 per utilizzare lo schema di utilizzo del connettore. URIs s3a Se non utilizzano lo schema, puoi modificare l'implementazione e gli schemi del file system utilizzati. s3 s3n

    Per modificare lo schema s3, specifica le seguenti configurazioni del cluster:

    [ { "Classification": "core-site", "Properties": { "fs.s3.impl": "org.apache.hadoop.fs.s3a.S3AFileSystem", "fs.AbstractFileSystem.s3.impl": "org.apache.hadoop.fs.s3a.S3A" } } ]

    Per modificare lo schema s3n, specifica le seguenti configurazioni del cluster:

    [ { "Classification": "core-site", "Properties": { "fs.s3n.impl": "org.apache.hadoop.fs.s3a.S3AFileSystem", "fs.AbstractFileSystem.s3n.impl": "org.apache.hadoop.fs.s3a.S3A" } } ]
  3. Nella tua configurazione spark-submit, usa il provider di credenziali di identità web.

    "spark.hadoop.fs.s3a.aws.credentials.provider=com.amazonaws.auth.WebIdentityTokenCredentialsProvider"