Fitur dan Kemampuan - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Fitur dan Kemampuan

Teknologi yang Didukung

  • Bahasa: Aplikasi Python dan Scala

  • Build Systems: Maven dan SBT untuk proyek Scala; requirements.txt, Pipfile, dan Setuptools untuk proyek Python

  • Platform Target: Amazon EMR dan EMR Tanpa Server

  • Versi yang Didukung: Kami mendukung peningkatan Apache Spark dari versi 2.4 ke 3.5. Pemetaan mode penerapan yang sesuai adalah sebagai berikut

    • Untuk EMR- EC2

      • Versi Sumber: EMR 5.20.0 dan yang lebih baru

      • Versi Target: EMR 7.12.0 dan sebelumnya, harus lebih baru dari EMR 5.20.0

    • Untuk EMR Tanpa Server

      • Versi Sumber: EMR Tanpa Server 6.6.0 dan yang lebih baru

      • Versi Target: EMR Tanpa Server 7.12.0 dan sebelumnya

Apa yang Kami Upgrade

Agen pemutakhiran menyediakan peningkatan aplikasi Spark yang komprehensif:

  • Konfigurasi Bangun: Secara otomatis memperbarui file manajemen ketergantungan (pom.xml, requirements.txt, dll.)

  • Kode Sumber: Memperbaiki masalah kompatibilitas API dan penggunaan metode yang tidak digunakan lagi

  • Kode Uji: Memastikan pengujian unit dan integrasi bekerja dengan versi Spark target

  • Dependensi: Meningkatkan dependensi yang dikemas ke versi yang kompatibel dengan versi EMR target

  • Validasi: Mengkompilasi dan memvalidasi aplikasi pada kluster EMR target

  • Analisis Kualitas Data: Mendeteksi perbedaan skema, penyimpangan statistik tingkat nilai (min/max/mean), dan ketidakcocokan jumlah baris agregat, dengan pelaporan dampak terperinci.

Wilayah yang Tersedia

Agen Peningkatan Spark tersedia di wilayah berikut:

  • Asia Pasifik: Tokyo (ap-northeast-1), Seoul (ap-northeast-2), Singapura (ap-southeast-1), Sydney (ap-southeast-2), dan Mumbai (ap-southeast-1)

  • Amerika Utara: Kanada (ca-central-1)

  • Eropa: Stockholm (eu-north-1), Irlandia (eu-west-1), London (eu-west-2), Paris (eu-west-3), dan Frankfurt (eu-central-1)

  • Amerika Selatan: São Paulo (sa-east-1)

  • Amerika Serikat: Virginia Utara (us-east-1), Ohio (us-east-2), dan Oregon (us-west-2)

Lingkup Upgrade dan Persyaratan Pengguna

  • Manajemen Cluster: Agen Peningkatan Spark berfokus pada peningkatan kode aplikasi. Target kluster EMR untuk versi baru harus dibuat dan dikelola oleh pengguna.

  • Tindakan Bootstrap: Agen Peningkatan Spark tidak memutakhirkan skrip bootstrap khusus di luar kode aplikasi Spark. Mereka perlu ditingkatkan oleh pengguna.

  • Upgrade for Build and Tests: Agen pemutakhiran akan melakukan build dan menjalankan pengujian unit dan integrasi Anda di lingkungan pengembangan Anda secara lokal untuk memvalidasi bahwa aplikasi berhasil dikompilasi dengan versi Spark target. Jika Anda memiliki batasan (kebijakan keamanan, batasan sumber daya, pembatasan jaringan, atau pedoman perusahaan) untuk kode aplikasi Spark untuk eksekusi lokal, pertimbangkan untuk menggunakan Amazon SageMaker Unified Studio VSCode IDE Spaces atau EC2 untuk menjalankan agen pemutakhiran. Agen pemutakhiran menggunakan aplikasi EC2 EMR-cluster atau EMR-S target Anda untuk memvalidasi dan meningkatkan. end-to-end

  • Pendekatan Berbasis Kesalahan: Agen pemutakhiran menggunakan metodologi yang digerakkan oleh kesalahan, membuat satu perbaikan pada satu waktu berdasarkan kompilasi atau kesalahan runtime daripada beberapa perbaikan sekaligus. Pendekatan berulang ini memastikan setiap masalah ditangani dengan benar sebelum melanjutkan ke yang berikutnya.

  • Dependensi Pribadi: Dependensi yang diinstal dari repositori artefak pribadi tidak dapat ditingkatkan secara otomatis sebagai bagian dari proses ini. Mereka harus ditingkatkan oleh pengguna.

  • Sumber daya regional: Agen peningkatan Spark bersifat regional dan menggunakan sumber daya EMR yang mendasarinya di wilayah tersebut untuk proses peningkatan. Upgrade lintas wilayah tidak didukung.