Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Caricamento di dati in Amazon S3 Express One Zone con Amazon EMR su EKS
Con le versioni 7.2.0 e successive di Amazon EMR, puoi utilizzare Amazon EMR su EKS con la classe di storage Amazon S3 Express One Zone per migliorare le prestazioni durante l'esecuzione di job e carichi di lavoro. S3 Express One Zone è una classe di storage Amazon S3 a zona singola ad alte prestazioni che offre un accesso ai dati coerente a una cifra in millisecondi per la maggior parte delle applicazioni sensibili alla latenza. Al momento del suo rilascio, S3 Express One Zone offre lo storage di oggetti cloud con la latenza più bassa e le prestazioni più elevate in Amazon S3.
Prerequisiti
Prima di poter utilizzare S3 Express One Zone con Amazon EMR su EKS, devi avere i seguenti prerequisiti:
-
Dopo aver configurato Amazon EMR su EKS, crea un cluster virtuale.
Nozioni di base su S3 Express One Zone
Segui questi passaggi per iniziare a usare S3 Express One Zone
-
Aggiungi l'
CreateSession
autorizzazione al tuo ruolo di esecuzione del lavoro. Quando S3 Express One Zone esegue inizialmente un'azione simileGET
oPUT
su un oggetto S3, la classe di storage chiama per tuoCreateSession
conto.LIST
Di seguito è riportato un esempio di come concedere l'CreateSession
autorizzazione. -
È necessario utilizzare il connettore Apache Hadoop S3A per accedere ai bucket S3 Express, quindi cambia Amazon S3 per utilizzare lo schema di utilizzo del connettore. URIs
s3a
Se non utilizzano lo schema, puoi modificare l'implementazione e gli schemi del file system utilizzati.s3
s3n
Per modificare lo schema
s3
, specifica le seguenti configurazioni del cluster:[ { "Classification": "core-site", "Properties": { "fs.s3.impl": "org.apache.hadoop.fs.s3a.S3AFileSystem", "fs.AbstractFileSystem.s3.impl": "org.apache.hadoop.fs.s3a.S3A" } } ]
Per modificare lo schema s3n, specifica le seguenti configurazioni del cluster:
[ { "Classification": "core-site", "Properties": { "fs.s3n.impl": "org.apache.hadoop.fs.s3a.S3AFileSystem", "fs.AbstractFileSystem.s3n.impl": "org.apache.hadoop.fs.s3a.S3A" } } ]
-
Nella tua configurazione spark-submit, usa il provider di credenziali di identità web.
"spark.hadoop.fs.s3a.aws.credentials.provider=com.amazonaws.auth.WebIdentityTokenCredentialsProvider"