Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Pertimbangan dan batasan
Umum
Tinjau batasan berikut saat menggunakan Lake Formation dengan EMR Serverless.
catatan
Saat Anda mengaktifkan Lake Formation untuk pekerjaan Spark di EMR Tanpa Server, pekerjaan tersebut meluncurkan driver sistem dan driver pengguna. Jika Anda menentukan kapasitas pra-inisialisasi saat peluncuran, ketentuan driver dari kapasitas pra-inisialisasi, dan jumlah driver sistem sama dengan jumlah driver pengguna yang Anda tentukan. Jika Anda memilih kapasitas On Demand, EMR Serverless meluncurkan driver sistem selain driver pengguna. Untuk memperkirakan biaya yang terkait dengan pekerjaan EMR Tanpa Server dengan Lake Formation Anda, gunakan. AWS Kalkulator Harga
-
Aplikasi yang mendukung Lake Formation tidak mendukung penggunaan gambar EMR Tanpa Server yang disesuaikan.
-
Anda tidak dapat mematikan
DynamicResourceAllocationuntuk pekerjaan Lake Formation. -
Anda hanya dapat menggunakan Lake Formation dengan pekerjaan Spark.
-
EMR Tanpa Server dengan Lake Formation hanya mendukung satu sesi Spark selama pekerjaan.
-
EMR Tanpa Server dengan Lake Formation hanya mendukung kueri tabel lintas akun yang dibagikan melalui tautan sumber daya.
-
Berikut ini tidak didukung:
-
Kumpulan data terdistribusi yang tangguh (RDD)
-
Streaming percikan
-
Kontrol akses untuk kolom bersarang
-
-
EMR Tanpa Server memblokir fungsionalitas yang mungkin merusak isolasi lengkap driver sistem, termasuk yang berikut ini:
-
UDTs, HiveUDFs, dan fungsi apa pun yang ditentukan pengguna yang melibatkan kelas khusus
-
Sumber data kustom
-
Pasokan stoples tambahan untuk ekstensi Spark, konektor, atau metastore
-
Perintah
ANALYZE TABLE
-
-
Jika aplikasi EMR Tanpa Server Anda berada dalam subnet pribadi dengan titik akhir VPC untuk Amazon S3 dan Anda melampirkan kebijakan titik akhir untuk mengontrol akses, sebelum pekerjaan Anda dapat mengirim data log ke Amazon S3 Terkelola, sertakan izin yang dirinci dalam Penyimpanan terkelola AWS dalam kebijakan VPC Anda ke titik akhir gateway S3. Untuk permintaan pemecahan masalah, hubungi AWS dukungan.
-
Dimulai dengan Amazon EMR 7.9.0, Spark FGAC mendukung AFile Sistem S3 saat digunakan dengan skema s3a://.
-
Amazon EMR 7.11 mendukung pembuatan tabel terkelola menggunakan CTAS.
-
Amazon EMR 7.12 mendukung pembuatan tabel terkelola dan eksternal menggunakan CTAS.
Izin
-
Untuk menegakkan kontrol akses, EXPLORE PLAN dan operasi DDL seperti DESCRIBE TABLE tidak mengekspos informasi terbatas.
-
Saat Anda mendaftarkan lokasi tabel dengan Lake Formation, akses data menggunakan kredensil tersimpan Lake Formation, bukan izin IAM peran runtime pekerjaan EMR Tanpa Server. Pekerjaan akan gagal jika peran terdaftar untuk lokasi tabel salah dikonfigurasi, bahkan ketika peran runtime memiliki izin IAM S3 untuk lokasi tersebut.
-
Dimulai dengan Amazon EMR 7.12, Anda dapat menulis ke tabel Hive dan Iceberg yang ada menggunakan DataFrameWriter (V2) dengan kredensyal Lake Formation dalam mode append. Untuk operasi menimpa atau saat membuat tabel baru, EMR menggunakan kredenal peran runtime untuk memodifikasi data tabel.
-
Batasan berikut berlaku saat menggunakan tampilan atau tabel cache sebagai data sumber (batasan ini tidak berlaku untuk tampilan AWS Glue Data Catalog):
-
Untuk operasi MERGE, DELETE, dan UPDATE
-
Didukung: Menggunakan tampilan dan tabel cache sebagai tabel sumber.
-
Tidak didukung: Menggunakan tampilan dan tabel cache dalam klausa penetapan dan kondisi.
-
-
Untuk CREATE OR REPLACE dan REPLACE TABLE AS SELECT operasi:
-
Tidak didukung: Menggunakan tampilan dan tabel cache sebagai tabel sumber.
-
-
-
Tabel Delta Lake dengan UDFs data sumber mendukung operasi MERGE, DELETE, dan UPDATE hanya ketika vektor penghapusan diaktifkan.
Log dan debugging
-
EMR Tanpa Server membatasi akses ke driver sistem Log Spark pada aplikasi yang mendukung Lake Formation. Karena driver sistem berjalan dengan izin tinggi, peristiwa dan log yang dihasilkan driver sistem dapat mencakup informasi sensitif. Untuk mencegah pengguna atau kode yang tidak sah mengakses data sensitif ini, EMR Serverless menonaktifkan akses ke log driver sistem.
-
Log profil sistem selalu disimpan dalam penyimpanan terkelola - ini adalah pengaturan wajib yang tidak dapat dinonaktifkan. Log ini disimpan dengan aman dan dienkripsi menggunakan kunci KMS yang Dikelola Pelanggan atau kunci KMS Terkelola AWS .
Gunung es
Tinjau pertimbangan berikut saat menggunakan Apache Iceberg:
-
Anda hanya dapat menggunakan Apache Iceberg dengan katalog sesi dan tidak sewenang-wenang bernama katalog.
-
Tabel gunung es yang terdaftar di Lake Formation hanya mendukung tabel metadata
history,,,,metadata_log_entriessnapshots,filesdan.manifestsrefsAmazon EMR menyembunyikan kolom yang mungkin memiliki data sensitif, sepertipartitions,, dan.pathsummariesBatasan ini tidak berlaku untuk tabel Gunung Es yang tidak terdaftar di Lake Formation. -
Tabel yang tidak terdaftar di Lake Formation mendukung semua prosedur yang disimpan Gunung Es. Prosedur
register_tabledanmigrateprosedur tidak didukung untuk tabel apa pun. -
Kami menyarankan Anda menggunakan Iceberg DataFrameWriter V2 alih-alih V1.