Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Pertimbangan untuk Amazon EMR dengan Lake Formation
Amazon EMR dengan Lake Formation tersedia di semua wilayah yang tersedia.
Pertimbangan untuk Amazon EMR dengan Lake Formation untuk versi 7.9 dan sebelumnya
Pertimbangkan hal berikut saat menggunakan AWS Lake Formation EMR 7.9 dan versi sebelumnya.
-
Kontrol akses berbutir halus pada tingkat baris, kolom, dan sel tersedia di cluster dengan rilis Amazon EMR 6.15 dan lebih tinggi.
-
Pengguna dengan akses ke tabel dapat mengakses semua properti tabel itu. Jika Anda memiliki kontrol akses berbasis Lake Formation di atas tabel, tinjau tabel untuk memastikan bahwa properti tidak berisi data atau informasi sensitif apa pun.
-
Cluster EMR Amazon dengan Lake Formation tidak mendukung fallback Spark ke HDFS saat Spark mengumpulkan statistik tabel. Ini biasanya membantu mengoptimalkan kinerja kueri.
-
Operasi yang mendukung kontrol akses berdasarkan Lake Formation dengan tabel Apache Spark yang tidak diatur termasuk dan.
INSERT INTOINSERT OVERWRITE -
Operasi yang mendukung kontrol akses berdasarkan Lake Formation dengan Apache Spark dan Apache Hive meliputi
SELECT,,,,DESCRIBESHOW DATABASE,SHOW TABLEdan.SHOW COLUMNSHOW PARTITION -
Amazon EMR tidak mendukung kontrol akses ke operasi berbasis Lake Formation berikut:
-
Menulis ke tabel yang diatur
-
Amazon EMR tidak mendukung.
CREATE TABLEAmazon EMR 6.10.0 dan dukungan yang lebih tinggi.ALTER TABLE -
Pernyataan DML selain
INSERTperintah.
-
-
Ada perbedaan kinerja antara kueri yang sama dengan dan tanpa kontrol akses berbasis Lake Formation.
-
Anda hanya dapat menggunakan Amazon EMR dengan Lake Formation untuk pekerjaan Spark.
-
Propagasi Identitas Tepercaya tidak didukung dengan hierarki multi-katalog di Katalog Data Glue. Untuk informasi selengkapnya, lihat Bekerja dengan hierarki multi-katalog di Katalog Data AWS Glue.
Pertimbangan untuk Amazon EMR dengan Lake Formation untuk versi 7.10 dan yang lebih baru
Pertimbangkan hal berikut saat menggunakan Amazon EMR dengan AWS Lake Formation EMR 7.10 dan versi yang lebih baru.
-
Amazon EMR mendukung kontrol akses berbutir halus melalui Lake Formation hanya untuk Apache Hive, Apache Iceberg, Apache Delta dan Apache Hudi tabel. Format Apache Hive termasuk Parket, ORC, dan xSV CSV.
-
Untuk aplikasi yang mendukung Lake Formation, log Spark ditulis ke Amazon S3 dalam dua grup: log ruang sistem dan log ruang pengguna. Log ruang sistem mungkin berisi informasi sensitif seperti skema tabel lengkap. Untuk melindungi data ini, Amazon EMR menyimpan log ruang sistem di lokasi terpisah dari log ruang pengguna. Sangat disarankan agar administrator akun tidak memberikan pengguna akses ke log ruang sistem.
-
Jika Anda mendaftarkan lokasi tabel dengan Lake Formation, akses data akan dikontrol secara eksklusif oleh izin peran yang digunakan untuk pendaftaran, bukan oleh peran runtime pekerjaan Amazon EMR. Jika peran registrasi salah dikonfigurasi, pekerjaan yang mencoba mengakses tabel akan gagal.
-
Anda tidak dapat mematikan
DynamicResourceAllocationuntuk pekerjaan Lake Formation. -
Anda hanya dapat menggunakan Lake Formation dengan pekerjaan Spark.
-
Amazon EMR dengan Lake Formation hanya mendukung satu sesi Spark selama pekerjaan.
-
Amazon EMR dengan Lake Formation hanya mendukung kueri tabel lintas akun yang dibagikan melalui tautan sumber daya.
-
Berikut ini tidak didukung:
-
Kumpulan data terdistribusi yang tangguh (RDD)
-
Streaming percikan
-
Menulis dengan izin Lake Formation yang diberikan
-
Kontrol akses untuk kolom bersarang
-
-
Amazon EMR memblokir fungsionalitas yang mungkin merusak isolasi lengkap driver sistem, termasuk yang berikut ini:
-
UDTs, HiveUDFs, dan fungsi apa pun yang ditentukan pengguna yang melibatkan kelas khusus
-
Sumber data kustom
-
Pasokan stoples tambahan untuk ekstensi Spark, konektor, atau metastore
-
Perintah
ANALYZE TABLE
-
-
Untuk menegakkan kontrol akses,
EXPLAIN PLANdan operasi DDL sepertiDESCRIBE TABLEtidak mengekspos informasi terbatas. -
Amazon EMR membatasi akses ke driver sistem Spark log pada aplikasi yang mendukung Lake Formation. Karena driver sistem berjalan dengan izin tinggi, peristiwa dan log yang dihasilkan driver sistem dapat mencakup informasi sensitif. Untuk mencegah pengguna atau kode yang tidak sah mengakses data sensitif ini, Amazon EMR menonaktifkan akses ke log driver sistem.
Log profil sistem selalu disimpan dalam penyimpanan terkelola - ini adalah pengaturan wajib yang tidak dapat dinonaktifkan. Log ini disimpan dengan aman dan dienkripsi menggunakan kunci KMS yang Dikelola Pelanggan atau kunci KMS Terkelola AWS .
Jika aplikasi EMR Amazon Anda berada dalam subnet pribadi dengan titik akhir VPC untuk Amazon S3 dan Anda melampirkan kebijakan titik akhir untuk mengontrol akses, sebelum pekerjaan Anda dapat mengirim data log ke AWS Amazon S3 Terkelola, Anda harus menyertakan izin yang dirinci dalam Penyimpanan terkelola dalam kebijakan VPC Anda ke titik akhir gateway S3. Untuk permintaan pemecahan masalah, hubungi AWS dukungan.
-
Jika Anda mendaftarkan lokasi tabel dengan Lake Formation, jalur akses data akan melewati kredensyal yang disimpan Lake Formation terlepas dari izin IAM untuk peran runtime pekerjaan Amazon EMR. Jika Anda salah mengonfigurasi peran yang terdaftar dengan lokasi tabel, pekerjaan yang dikirimkan yang menggunakan peran dengan izin IAM S3 ke lokasi tabel akan gagal.
-
Menulis ke tabel Lake Formation menggunakan izin IAM daripada izin yang diberikan Lake Formation. Jika peran runtime pekerjaan Anda memiliki izin S3 yang diperlukan, Anda dapat menggunakannya untuk menjalankan operasi penulisan.
Berikut ini adalah pertimbangan dan batasan saat menggunakan Apache Iceberg:
-
Anda hanya dapat menggunakan Apache Iceberg dengan katalog sesi dan tidak sewenang-wenang bernama katalog.
-
Tabel gunung es yang terdaftar di Lake Formation hanya mendukung tabel metadata
history,,,,metadata_log_entriessnapshots,filesdan.manifestsrefsAmazon EMR menyembunyikan kolom yang mungkin memiliki data sensitif, sepertipartitions,, dan.pathsummariesBatasan ini tidak berlaku untuk tabel Gunung Es yang tidak terdaftar di Lake Formation. -
Tabel yang tidak Anda daftarkan di Lake Formation mendukung semua prosedur yang disimpan Gunung Es. Prosedur
register_tabledanmigrateprosedur tidak didukung untuk tabel apa pun. -
Kami menyarankan Anda menggunakan Iceberg DataFrameWriter V2 alih-alih V1.
Pertimbangan untuk Amazon EMR dengan Lake Formation untuk versi 7.12 dan yang lebih baru
Umum
Tinjau batasan berikut saat menggunakan Lake Formation dengan Amazon EMR.
-
Anda tidak dapat mematikan
DynamicResourceAllocationuntuk pekerjaan Lake Formation. -
Anda hanya dapat menggunakan Lake Formation dengan pekerjaan Spark.
-
Amazon EMR dengan Lake Formation hanya mendukung satu sesi Spark selama pekerjaan.
-
Amazon EMR dengan Lake Formation hanya mendukung kueri tabel lintas akun yang dibagikan melalui tautan sumber daya.
-
Berikut ini tidak didukung:
-
Kumpulan data terdistribusi yang tangguh (RDD)
-
Streaming percikan
-
Kontrol akses untuk kolom bersarang
-
-
Amazon EMR memblokir fungsionalitas yang mungkin merusak isolasi lengkap driver sistem, termasuk yang berikut ini:
-
UDTs, HiveUDFs, dan fungsi apa pun yang ditentukan pengguna yang melibatkan kelas khusus
-
Sumber data kustom
-
Pasokan stoples tambahan untuk ekstensi Spark, konektor, atau metastore
-
Perintah
ANALYZE TABLE
-
-
Jika aplikasi EMR Amazon Anda berada dalam subnet pribadi dengan titik akhir VPC untuk Amazon S3 dan Anda melampirkan kebijakan titik akhir untuk mengontrol akses, sebelum pekerjaan Anda dapat mengirim data log ke AWS Amazon S3 Terkelola, Anda harus menyertakan izin yang dirinci dalam Penyimpanan terkelola dalam kebijakan VPC Anda ke titik akhir gateway S3. Untuk permintaan pemecahan masalah, hubungi AWS dukungan.
-
Dimulai dengan Amazon EMR 7.9.0, Spark FGAC mendukung AFile Sistem S3 saat digunakan dengan skema s3a://.
-
Amazon EMR 7.11 mendukung pembuatan tabel terkelola menggunakan CTAS.
-
Amazon EMR 7.12 mendukung pembuatan tabel terkelola dan eksternal menggunakan CTAS.
Izin
-
Untuk menegakkan kontrol akses, EXPLORE PLAN dan operasi DDL seperti DESCRIBE TABLE tidak mengekspos informasi terbatas.
-
Saat Anda mendaftarkan lokasi tabel dengan Lake Formation, akses data menggunakan kredensyal yang disimpan Lake Formation, bukan izin IAM peran runtime pekerjaan EMR Tanpa Server. Pekerjaan akan gagal jika peran terdaftar untuk lokasi tabel salah dikonfigurasi, bahkan ketika peran runtime memiliki izin IAM S3 untuk lokasi tersebut.
-
Dimulai dengan Amazon EMR 7.12, Anda dapat menulis ke tabel Hive dan Iceberg yang ada menggunakan DataFrameWriter (V2) dengan kredensyal Lake Formation dalam mode append. Untuk operasi menimpa atau saat membuat tabel baru, EMR menggunakan kredensyal peran runtime untuk memodifikasi data tabel.
-
Batasan berikut berlaku saat menggunakan tampilan atau tabel cache sebagai data sumber (batasan ini tidak berlaku untuk tampilan AWS Glue Data Catalog):
-
Untuk operasi MERGE, DELETE, dan UPDATE
-
Didukung: Menggunakan tampilan dan tabel cache sebagai tabel sumber.
-
Tidak didukung: Menggunakan tampilan dan tabel cache dalam klausa penetapan dan kondisi.
-
-
Untuk CREATE OR REPLACE dan REPLACE TABLE AS SELECT operasi:
-
Tidak didukung: Menggunakan tampilan dan tabel cache sebagai tabel sumber.
-
-
-
Tabel Delta Lake dengan UDFs data sumber mendukung operasi MERGE, DELETE, dan UPDATE hanya ketika vektor penghapusan diaktifkan.
Log dan debugging
-
Amazon EMR membatasi akses ke driver sistem Spark log pada aplikasi yang mendukung Lake Formation. Karena driver sistem berjalan dengan izin tinggi, peristiwa dan log yang dihasilkan driver sistem dapat mencakup informasi sensitif. Untuk mencegah pengguna atau kode yang tidak sah mengakses data sensitif ini, Amazon EMR menonaktifkan akses ke log driver sistem.
Log profil sistem selalu disimpan dalam penyimpanan terkelola - ini adalah pengaturan wajib yang tidak dapat dinonaktifkan. Log ini disimpan dengan aman dan dienkripsi menggunakan kunci KMS yang Dikelola Pelanggan atau kunci KMS Terkelola AWS .
Gunung es
Tinjau pertimbangan berikut saat menggunakan Apache Iceberg:
-
Anda hanya dapat menggunakan Apache Iceberg dengan katalog sesi dan tidak sewenang-wenang bernama katalog.
-
Tabel gunung es yang terdaftar di Lake Formation hanya mendukung tabel metadata
history,,,,metadata_log_entriessnapshots,filesdan.manifestsrefsAmazon EMR menyembunyikan kolom yang mungkin memiliki data sensitif, sepertipartitions,, dan.pathsummariesBatasan ini tidak berlaku untuk tabel Gunung Es yang tidak terdaftar di Lake Formation. -
Tabel yang tidak terdaftar di Lake Formation mendukung semua prosedur yang disimpan Gunung Es. Prosedur
register_tabledanmigrateprosedur tidak didukung untuk tabel apa pun. -
Kami menyarankan Anda menggunakan Iceberg DataFrameWriter V2 alih-alih V1.