Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Fitur, persyaratan, dan batasan EMR Studio
Topik ini mencakup Item yang perlu dipertimbangkan saat bekerja dengan Amazon EMR Studio, termasuk pertimbangan tentang wilayah dan alat, persyaratan klaster, dan batasan teknis.
Pertimbangan
Pertimbangkan hal berikut ketika Anda bekerja dengan EMR Studio:
-
EMR Studio tersedia sebagai berikut: Wilayah AWS
-
AS Timur (Ohio) (us-east-2)
-
AS Timur (Virginia Utara) (us-east-1)
-
AS Barat (California Utara) (us-west-1)
-
AS Barat (Oregon) (us-west-2)
-
Africa (Cape Town) (af-south-1)
-
Asia Pacific (Hong Kong) (ap-east-1)
-
Asia Pasifik (Jakarta) (ap-southeast-3) *
-
Asia Pasifik (Melbourne) (ap-southeast-4) *
-
Asia Pasifik (Mumbai) (ap-south-1)
-
Asia Pasifik (Osaka) (ap-northeast-3) *
-
Asia Pasifik (Seoul) (ap-northeast-2)
-
Asia Pasifik (Singapura) (ap-southeast-1)
-
Asia Pacific (Sydney) (ap-southeast-2)
-
Asia Pacific (Tokyo) (ap-northeast-1)
-
Kanada (Pusat) (ca-central-1)
-
Eropa (Frankfurt) (eu-central-1)
-
Eropa (Irlandia) (eu-west-1)
-
Eropa (London) (eu-west-2)
-
Europe (Milan) (eu-south-1)
-
Eropa (Paris) (eu-west-3)
-
Eropa (Spanyol) (eu-south-2)
-
Eropa (Stockholm) (eu-north-1)
-
Eropa (Zurich) (eu-central-2) *
-
Israel (Tel Aviv) (il-central-1) *
-
Timur Tengah (UEA) (me-central-1) *
-
Amerika Selatan (Sao Paulo) (sa-east-1)
-
AWS GovCloud (AS-Timur) (gov-us-east-1)
-
AWS GovCloud (AS-Barat) (gov-us-west-1)
* UI Spark langsung tidak didukung di Wilayah ini.
-
-
Agar pengguna dapat menyediakan kluster EMR baru yang berjalan di Amazon EC2 untuk Workspace, Anda dapat mengaitkan EMR Studio dengan sekumpulan templat klaster. Administrator dapat menentukan template klaster dengan Service Catalog dan dapat memilih apakah pengguna atau grup dapat mengakses templat klaster, atau tidak ada templat klaster, di dalam Studio.
-
Saat Anda menentukan izin akses ke file notebook yang disimpan di Amazon S3 atau membaca rahasia, gunakan AWS Secrets Manager peran layanan Amazon EMR. Kebijakan sesi tidak didukung dengan izin ini.
-
Anda dapat membuat beberapa EMR Studios untuk mengontrol akses ke kluster EMR yang berbeda. VPCs
-
Gunakan AWS CLI untuk mengatur Amazon EMR di kluster EKS. Anda kemudian dapat menggunakan antarmuka Studio untuk melampirkan cluster ke Workspaces dengan endpoint terkelola untuk menjalankan pekerjaan notebook.
-
Ada pertimbangan tambahan ketika Anda menggunakan propagasi identitas tepercaya dengan Amazon EMR yang juga berlaku untuk EMR Studio. Untuk informasi selengkapnya, lihat Pertimbangan dan batasan untuk Amazon EMR dengan integrasi Pusat Identitas.
-
EMR Studio tidak mendukung perintah ajaib Python berikut:
-
%alias
-
%alias_magic
-
%automagic
-
%macro
-
%%js
-
%%javascript
-
Memodifikasi
proxy_user
menggunakan%configure
-
Memodifikasi
KERNEL_USERNAME
menggunakan%env
atau%set_env
-
-
Amazon EMR di kluster EKS tidak mendukung perintah SparkMagic untuk EMR Studio.
-
Untuk menulis pernyataan Scala multi-baris di sel notebook, pastikan bahwa semua kecuali baris terakhir berakhir dengan titik. Contoh berikut menggunakan sintaks yang benar untuk pernyataan Scala multi-baris.
val df = spark.sql("SELECT * from table_name). filter("col1=='value'"). limit(50)
Untuk meningkatkan keamanan aplikasi off-console yang mungkin Anda gunakan dengan Amazon EMR, domain hosting aplikasi terdaftar di Daftar Akhiran Publik (PSL). Contoh domain hosting ini meliputi:
emrstudio-prod.us-east-1.amazonaws.com
,emrnotebooks-prod.us-east-1.amazonaws.com
,emrappui-prod.us-east-1.amazonaws.com
. Untuk keamanan lebih lanjut, jika Anda perlu mengatur cookie sensitif di nama domain default, kami sarankan Anda menggunakan cookie dengan__Host-
awalan. Ini membantu mempertahankan domain Anda dari upaya pemalsuan permintaan lintas situs (CSRF). Untuk informasi lebih lanjut, lihat Set-Cookiehalaman di Jaringan Pengembang Mozilla. -
Ruang Kerja Amazon EMR Studio dan titik akhir UI Persisten menggunakan modul kriptografi tervalidasi FIPS 140 untuk encryption-in-transit, yang memungkinkan adopsi layanan yang lebih mudah untuk beban kerja yang diatur. Untuk konteks tambahan pada titik akhir UI Persisten, lihat Melihat antarmuka pengguna aplikasi persisten di Amazon EMR. Untuk konteks tambahan mengenai notebook, lihat ikhtisar Notebook EMR Amazon.
Masalah yang diketahui
-
Studio EMR yang menggunakan Pusat Identitas IAM dengan propagasi identitas tepercaya diaktifkan hanya dapat dikaitkan dengan kluster EMR yang juga menggunakan propagasi identitas tepercaya.
-
Pastikan Anda menonaktifkan alat manajemen proxy seperti FoxyProxy atau SwitchyOmega di browser sebelum Anda membuat Studio. Proksi aktif dapat menyebabkan kesalahan saat Anda memilih Buat Studio, dan menghasilkan pesan galat Kegagalan Jaringan.
-
Kernel yang berjalan di Amazon EMR di kluster EKS dapat gagal dimulai karena masalah batas waktu. Jika Anda mengalami kesalahan atau masalah saat memulai kernel, tutup file notebook, matikan kernel, lalu buka kembali file notebook.
-
Operasi kernel Restart tidak berfungsi seperti yang diharapkan saat Anda menggunakan EMR Amazon di kluster EKS. Setelah Anda memilih Restart kernel, segarkan Workspace agar restart diterapkan.
-
Jika Workspace tidak dilampirkan ke kluster, pesan kesalahan akan muncul saat pengguna Studio membuka file notebook dan mencoba memilih kernel. Anda dapat mengabaikan pesan kesalahan ini dengan memilih Oke, tetapi Anda harus melampirkan Workspace ke klaster dan memilih kernel agar Anda dapat menjalankan kode notebook.
-
Saat Anda menggunakan Amazon EMR 6.2.0 dengan konfigurasi keamanan untuk mengatur keamanan klaster, antarmuka Workspace tampak kosong dan tidak berfungsi seperti yang diharapkan. Kami menyarankan Anda menggunakan versi Amazon EMR yang didukung berbeda jika Anda ingin mengonfigurasi enkripsi data atau otorisasi Amazon S3 untuk EMRFS untuk klaster. EMR Studio bekerja dengan Amazon EMR versi 5.32.0 (Amazon EMR 5.x series) dan 6.2.0 (Amazon EMR 6.x series) dan lebih tinggi.
-
Saat Anda Debug Amazon EMR yang berjalan di pekerjaan Amazon EC2 , tautan ke Spark UI pada klaster mungkin tidak bekerja atau gagal untuk muncul. Untuk meregenerasi tautan, buat sel notebook baru dan jalankan perintah
%%info
. -
Jupyter Enterprise Gateway tidak membersihkan kernel idle pada node utama cluster dalam versi rilis Amazon EMR berikut: 5.32.0, 5.33.0, 6.2.0, dan 6.3.0. Kernel idle mengkonsumsi sumber daya komputasi dan dapat menyebabkan cluster yang berjalan lama gagal. Anda dapat mengonfigurasi pembersihan kernel idle untuk Jupyter Enterprise Gateway menggunakan contoh skrip berikut. Anda dapat Connect ke node primer Amazon EMR cluster menggunakan SSH, atau mengirimkan skrip sebagai langkah. Untuk informasi selengkapnya, lihat Menjalankan perintah dan skrip di klaster EMR Amazon.
#!/bin/bash sudo tee -a /emr/notebook-env/conf/jupyter_enterprise_gateway_config.py << EOF c.MappingKernelManager.cull_connected = True c.MappingKernelManager.cull_idle_timeout = 10800 c.MappingKernelManager.cull_interval = 300 EOF sudo systemctl daemon-reload sudo systemctl restart jupyter_enterprise_gateway
-
Saat Anda menggunakan kebijakan penghentian otomatis dengan Amazon EMR versi 5.32.0, 5.33.0, 6.2.0, atau 6.3.0, Amazon EMR menandai klaster sebagai idle dan dapat menghentikan klaster secara otomatis meskipun Anda memiliki kernel Python3 yang aktif. Ini karena menjalankan kernel Python3 tidak mengirimkan pekerjaan Spark di cluster. Untuk menggunakan penghentian otomatis dengan kernel Python3, sebaiknya gunakan Amazon EMR versi 6.4.0 atau yang lebih baru. Untuk informasi selengkapnya tentang penghentian otomatis, lihatMenggunakan kebijakan penghentian otomatis untuk pembersihan klaster EMR Amazon.
-
Saat Anda menggunakan
%%display
untuk menampilkan Spark DataFrame dalam tabel, tabel yang sangat lebar mungkin terpotong. Anda dapat mengklik kanan output dan memilih Buat Tampilan Baru untuk Output untuk mendapatkan tampilan output yang dapat digulir. -
Memulai kernel berbasis Spark, seperti, Spark PySpark, atau SparkR, memulai sesi Spark, dan menjalankan sel di notebook mengantri pekerjaan Spark di sesi itu. Saat Anda mengganggu sel yang sedang berjalan, pekerjaan Spark terus berjalan. Untuk menghentikan pekerjaan Spark, Anda harus menggunakan UI Spark on-cluster. Untuk petunjuk tentang cara menyambung ke UI Spark, lihatDebug aplikasi dan pekerjaan dengan EMR Studio.
-
Menggunakan Amazon EMR Studio Workspaces sebagai pengguna root Akun AWS menyebabkan kesalahan.
403: Forbidden
Ini karena konfigurasi Jupyter Enterprise Gateway di Amazon EMR tidak mengizinkan akses ke pengguna root. Kami menyarankan Anda untuk tidak menggunakan pengguna root untuk tugas sehari-hari Anda. Untuk opsi otentikasi lainnya, lihat AWS Identity and Access Management Amazon EMR.
Batasan fitur
Amazon EMR Studio tidak mendukung fitur Amazon EMR berikut:
-
Melampirkan dan menjalankan pekerjaan pada cluster EMR dengan konfigurasi keamanan yang menentukan otentikasi Kerberos
-
Cluster dengan beberapa node primer
-
Cluster yang menggunakan EC2 instans Amazon berdasarkan AWS Graviton2 untuk Amazon EMR 6.x rilis lebih rendah dari 6.9.0, dan rilis 5.x lebih rendah dari 5.36.1
Fitur berikut tidak didukung dari Studio yang menggunakan propagasi identitas tepercaya:
-
Membuat cluster EMR tanpa template.
-
Menggunakan aplikasi EMR Tanpa Server.
-
Meluncurkan Amazon EMR di kluster EKS.
-
Menggunakan peran runtime.
-
Mengaktifkan kolaborasi SQL Explorer atau Workspace.
Kuota layanan untuk EMR Studio
Tabel berikut menampilkan batas layanan untuk EMR Studio.
Item | Kuota |
---|---|
EMR Studio | Maksimal 100 per AWS akun |
Subnet | Maksimum 5 yang terkait dengan setiap EMR Studio |
Grup Pusat Identitas IAM | Maksimum 5 yang ditetapkan untuk setiap EMR Studio |
Pengguna Pusat Identitas IAM | Maksimum 100 yang ditetapkan untuk setiap EMR Studio |