Requisitos previos Introducción a S3 Express One Zone

Introduzca datos en S3 Express One Zone con EMR sin servidor

Con Amazon EMR 7.2.0 y versiones posteriores, puede utilizar Amazon EMR sin servidor con la clase de almacenamiento de Amazon S3 Express One Zone para mejorar el rendimiento al ejecutar trabajos y cargas de trabajo. S3 Express One Zone es una clase de almacenamiento de Amazon S3 en zona única de alto rendimiento que ofrece acceso constante a los datos en milisegundos de un solo dígito para los datos a los que accede para las aplicaciones más sensibles a la latencia. En el momento de su lanzamiento, S3 Express One Zone ofrece el almacenamiento de objetos en la nube con la latencia más baja y el rendimiento más alto de Amazon S3.

Requisitos previos

Permisos de S3 Express One Zone: cuando S3 Express One Zone realiza a una acción como GET, LIST o PUT en un objeto de S3, la clase de almacenamiento llama a CreateSession en su nombre. Su política de IAM debe permitir el permiso s3express:CreateSession para que el conector S3A pueda invocar la API CreateSession. Para ver un ejemplo de política con ese permiso, consulte Introducción a S3 Express One Zone.
Conector S3A: para configurar Spark de modo que pueda acceder a los datos de un bucket de Amazon S3 que utilice la clase de almacenamiento S3 Express One Zone, utilice el conector S3A de Apache Hadoop. Para usar el conector, asegúrese de que todos los S3 URIs utilicen el s3a esquema. De no ser así, cambie la implementación del sistema de archivos que utiliza para los esquemas s3 y s3n.

Para cambiar el esquema s3, especifique las siguientes configuraciones de clúster:


[
  {
    "Classification": "core-site",
    "Properties": {
      "fs.s3.impl": "org.apache.hadoop.fs.s3a.S3AFileSystem",
      "fs.AbstractFileSystem.s3.impl": "org.apache.hadoop.fs.s3a.S3A"
    }
  }
]

Para cambiar el esquema s3n, especifique las siguientes configuraciones de clúster:


[
  {
    "Classification": "core-site",
    "Properties": {
      "fs.s3n.impl": "org.apache.hadoop.fs.s3a.S3AFileSystem",
      "fs.AbstractFileSystem.s3n.impl": "org.apache.hadoop.fs.s3a.S3A"
    }
  }
]

Introducción a S3 Express One Zone

Siga estos pasos para empezar a utilizar S3 Express One Zone.

Cree un punto de conexión de VPC. Agregue el punto de conexión com.amazonaws.us-west-2.s3express al punto de conexión de la VPC.
Siga Introducción a Amazon EMR sin servidor para crear una aplicación con la etiqueta de versión 7.2.0 o superior de Amazon EMR.
Configure su aplicación para que utilice el punto de conexión de VPC recién creado, un grupo de subredes privadas y un grupo de seguridad.

Añada el permiso CreateSession a su rol de ejecución de trabajos.

Ejecute su trabajo. Tenga en cuenta que debe usar el esquema S3A para acceder a los buckets de S3 Express One Zone.


aws emr-serverless start-job-run \      
--application-id <application-id> \          
--execution-role-arn <job-role-arn> \
--name <job-run-name> \
--job-driver '{
 "sparkSubmit": {                                                                                                                                                                                      
 "entryPoint": "s3a://<DOC-EXAMPLE-BUCKET>/scripts/wordcount.py", 
 "entryPointArguments":["s3a://<DOC-EXAMPLE-BUCKET>/emr-serverless-spark/output"],
 "sparkSubmitParameters": "--conf spark.executor.cores=4 
 --conf spark.executor.memory=8g --conf spark.driver.cores=4 
 --conf spark.driver.memory=8g --conf spark.executor.instances=2 
 --conf spark.hadoop.fs.s3a.change.detection.mode=none 
 --conf spark.hadoop.fs.s3a.endpoint.region={<AWS_REGION>}
 --conf spark.hadoop.fs.s3a.select.enabled=false 
 --conf spark.sql.sources.fastS3PartitionDiscovery.enabled=false 
 }'

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Simultaneidad de trabajos y colas

Trabajos en ejecución