Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà. # Configurazione dei ruoli IAM per gli account di servizio (IRSA) per spark-submit Le seguenti sezioni spiegano come configurare i ruoli IAM per gli account di servizio (IRSA) per autenticare e autorizzare gli account di servizio Kubernetes in modo da poter eseguire le applicazioni Spark archiviate in Amazon S3. ## Prerequisiti Prima di provare uno qualsiasi degli esempi di questa documentazione, assicurati di aver soddisfatto i seguenti prerequisiti: + [Hai completato la configurazione di spark-submit](https://docs.aws.amazon.com/emr/latest/EMR-on-EKS-DevelopmentGuide/spark-submit-setup.html) + [Hai creato un bucket S3](https://docs.aws.amazon.com/AmazonS3/latest/userguide/creating-bucket.html) e [caricato](https://docs.aws.amazon.com/AmazonS3/latest/userguide/uploading-an-object-bucket.html) il jar dell'applicazione Spark ## Configurazione di un account di servizio Kubernetes per assumere un ruolo IAM I passaggi seguenti spiegano come configurare un account di servizio Kubernetes per assumere un ruolo (IAM). AWS Identity and Access Management Dopo aver configurato i pod per utilizzare l'account di servizio, possono accedere a qualsiasi account a Servizio AWS cui il ruolo dispone delle autorizzazioni di accesso. 1. [Crea un file di policy per consentire l'accesso in sola lettura all'oggetto Amazon S3 che hai caricato:](https://docs.aws.amazon.com/AmazonS3/latest/userguide/uploading-an-object-bucket.html) ``` cat >my-policy.json <", "arn:aws:s3:::<{{my-spark-jar-bucket}}>/*" ] } ] } EOF ``` 1. Creare la policy IAM. ``` aws iam create-policy --policy-name my-policy --policy-document file://my-policy.json ``` 1. Crea un ruolo IAM e associalo a un account di servizio Kubernetes per il driver Spark ``` eksctl create iamserviceaccount --name my-spark-driver-sa --namespace spark-operator \ --cluster my-cluster --role-name "my-role" \ --attach-policy-arn arn:aws:iam::111122223333:policy/my-policy --approve ``` 1. Crea un file YAML con le [autorizzazioni](https://docs.aws.amazon.com/emr/latest/EMR-on-EKS-DevelopmentGuide/spark-submit-security.html) richieste per l'account del servizio driver Spark: ``` cat >spark-rbac.yaml < Amazon EMR 6.10.0 e versioni successive supportano spark-submit per l'esecuzione di applicazioni Spark su un cluster Amazon EKS. Per eseguire l'applicazione Spark, completa questa procedura: 1. Assicurati di aver completato i passaggi descritti in [Configurazione di spark-submit per Amazon EMR](https://docs.aws.amazon.com/emr/latest/EMR-on-EKS-DevelopmentGuide/spark-submit-setup.html) su EKS. 1. Imposta i valori delle seguenti variabili di ambiente: ``` export SPARK_HOME=spark-home export MASTER_URL=k8s://Amazon EKS-cluster-endpoint ``` 1. A questo punto, invia l'applicazione Spark con il comando seguente: ``` $SPARK_HOME/bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master $MASTER_URL \ --conf spark.kubernetes.container.image=895885662937.dkr.ecr.us-west-2.amazonaws.com/spark/emr-6.15.0:latest \ --conf spark.kubernetes.authenticate.driver.serviceAccountName=emr-containers-sa-spark \ --deploy-mode cluster \ --conf spark.kubernetes.namespace=default \ --conf "spark.driver.extraClassPath=/usr/lib/hadoop-lzo/lib/*:/usr/lib/hadoop/hadoop-aws.jar:/usr/share/aws/aws-java-sdk/*:/usr/share/aws/emr/emrfs/conf:/usr/share/aws/emr/emrfs/lib/*:/usr/share/aws/emr/emrfs/auxlib/*:/usr/share/aws/emr/security/conf:/usr/share/aws/emr/security/lib/*:/usr/share/aws/hmclient/lib/aws-glue-datacatalog-spark-client.jar:/usr/share/java/Hive-JSON-Serde/hive-openx-serde.jar:/usr/share/aws/sagemaker-spark-sdk/lib/sagemaker-spark-sdk.jar:/home/hadoop/extrajars/*" \ --conf "spark.driver.extraLibraryPath=/usr/lib/hadoop/lib/native:/usr/lib/hadoop-lzo/lib/native:/docker/usr/lib/hadoop/lib/native:/docker/usr/lib/hadoop-lzo/lib/native" \ --conf "spark.executor.extraClassPath=/usr/lib/hadoop-lzo/lib/*:/usr/lib/hadoop/hadoop-aws.jar:/usr/share/aws/aws-java-sdk/*:/usr/share/aws/emr/emrfs/conf:/usr/share/aws/emr/emrfs/lib/*:/usr/share/aws/emr/emrfs/auxlib/*:/usr/share/aws/emr/security/conf:/usr/share/aws/emr/security/lib/*:/usr/share/aws/hmclient/lib/aws-glue-datacatalog-spark-client.jar:/usr/share/java/Hive-JSON-Serde/hive-openx-serde.jar:/usr/share/aws/sagemaker-spark-sdk/lib/sagemaker-spark-sdk.jar:/home/hadoop/extrajars/*" \ --conf "spark.executor.extraLibraryPath=/usr/lib/hadoop/lib/native:/usr/lib/hadoop-lzo/lib/native:/docker/usr/lib/hadoop/lib/native:/docker/usr/lib/hadoop-lzo/lib/native" \ --conf spark.hadoop.fs.s3.customAWSCredentialsProvider=com.amazonaws.auth.WebIdentityTokenCredentialsProvider \ --conf spark.hadoop.fs.s3.impl=com.amazon.ws.emr.hadoop.fs.EmrFileSystem \ --conf spark.hadoop.fs.AbstractFileSystem.s3.impl=org.apache.hadoop.fs.s3.EMRFSDelegate \ --conf spark.hadoop.fs.s3.buffer.dir=/mnt/s3 \ --conf spark.hadoop.fs.s3.getObject.initialSocketTimeoutMilliseconds="2000" \ --conf spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version.emr_internal_use_only.EmrFileSystem="2" \ --conf spark.hadoop.mapreduce.fileoutputcommitter.cleanup-failures.ignored.emr_internal_use_only.EmrFileSystem="true" \ s3://my-pod-bucket/spark-examples.jar 20 ``` 1. Dopo che lo spark driver ha terminato il job Spark, dovresti vedere una riga di registro alla fine dell'invio che indica che il job Spark è terminato. ``` 23/11/24 17:02:14 INFO LoggingPodStatusWatcherImpl: Application org.apache.spark.examples.SparkPi with submission ID default:org-apache-spark-examples-sparkpi-4980808c03ff3115-driver finished 23/11/24 17:02:14 INFO ShutdownHookManager: Shutdown hook called ``` ## Pulizia Quando hai finito di eseguire le applicazioni, puoi eseguire la pulizia con il seguente comando. ``` kubectl delete -f spark-rbac.yaml ```