Caratteristiche e funzionalità - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Caratteristiche e funzionalità

Tecnologie supportate

  • Linguaggi: applicazioni Python e Scala

  • Costruisci sistemi: Maven e SBT per progetti Scala; requirements.txt, Pipfile e Setuptools per progetti Python

  • Piattaforme di destinazione: Amazon EMR ed EMR Serverless

  • Versioni supportate: supportiamo gli aggiornamenti di Apache Spark dalla versione 2.4 alla 3.5. Le mappature delle modalità di distribuzione corrispondenti sono le seguenti

    • Per EMR- EC2

      • Versione sorgente: EMR 5.20.0 e versioni successive

      • Versione di destinazione: EMR 7.12.0 e precedenti, dovrebbe essere più recente di EMR 5.20.0

    • Per EMR Serverless

      • Versione di origine: EMR Serverless 6.6.0 e versioni successive

      • Versione di destinazione: EMR Serverless 7.12.0 e versioni precedenti

Cosa aggiorniamo

L'agente di aggiornamento fornisce aggiornamenti completi delle applicazioni Spark:

  • Build Configuration: aggiorna automaticamente i file di gestione delle dipendenze (pom.xml, requirements.txt, ecc.)

  • Codice sorgente: corregge i problemi di compatibilità delle API e l'utilizzo di metodi obsoleti

  • Codice di test: assicura che i test di unità e integrazione funzionino con la versione Spark di destinazione

  • Dipendenze: aggiorna le dipendenze pacchettizzate a versioni compatibili con la versione EMR di destinazione

  • Convalida: compila e convalida le applicazioni sui cluster EMR di destinazione

  • Analisi della qualità dei dati: rileva le differenze di schema, le deviazioni statistiche a livello di valore (min/max/mean) e le discrepanze aggregate nel conteggio delle righe, con report dettagliati sull'impatto.

Regioni disponibili

Lo Spark Upgrade Agent è disponibile nelle seguenti regioni:

  • Asia Pacifico: Tokyo (ap-northeast-1), Seul (ap-northeast-2), Singapore (ap-southeast-1), Sydney (ap-southeast-2) e Mumbai (ap-southeast-2) e Mumbai (ap-south-1)

  • Nord America: Canada (ca-central-1)

  • Europa: Stoccolma (eu-north-1), Irlanda (eu-west-1), Londra (eu-west-2), Parigi (eu-west-3) e Francoforte (eu-central-1)

  • Sud America: San Paolo (sa-east-1)

  • Stati Uniti: Virginia del Nord (us-east-1), Ohio (us-east-2) e Oregon (us-west-2)

Ambito degli aggiornamenti e requisiti per l'utente

  • Gestione del cluster: Spark Upgrade Agent si concentra sugli aggiornamenti del codice dell'applicazione. I cluster EMR di destinazione per le nuove versioni devono essere creati e gestiti dagli utenti.

  • Azioni Bootstrap: Spark Upgrade Agent non aggiorna gli script di bootstrap personalizzati al di fuori del codice dell'applicazione Spark. Devono essere aggiornati dall'utente.

  • Aggiornamento per build e test: l'agente di aggiornamento eseguirà localmente la compilazione e l'esecuzione delle unità e dei test di integrazione nell'ambiente di sviluppo per verificare che le applicazioni vengano compilate correttamente con la versione Spark di destinazione. Se hai restrizioni (politiche di sicurezza, limitazioni delle risorse, restrizioni di rete o linee guida aziendali) per il codice dell'applicazione Spark per l'esecuzione locale, prendi in considerazione l'utilizzo di Amazon SageMaker Unified Studio VSCode IDE Spaces o EC2 l'esecuzione dell'agente di aggiornamento. L'agente di aggiornamento utilizza il EC2 cluster EMR- o le applicazioni EMR-S di destinazione per la convalida e l'aggiornamento. end-to-end

  • Approccio basato sugli errori: l'agente di aggiornamento utilizza una metodologia basata sugli errori, eseguendo una correzione alla volta in base agli errori di compilazione o di runtime anziché più correzioni contemporaneamente. Questo approccio iterativo garantisce che ogni problema venga risolto correttamente prima di passare a quello successivo.

  • Dipendenze private: le dipendenze installate da archivi privati di artefatti non possono essere aggiornate automaticamente come parte di questo processo. Devono essere aggiornate dall'utente.

  • Risorse regionali: l'agente di aggiornamento Spark è regionale e utilizza le risorse EMR sottostanti in quella regione per il processo di aggiornamento. Gli aggiornamenti interregionali non sono supportati.