Pertimbangan untuk Amazon EMR dengan Lake Formation - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Pertimbangan untuk Amazon EMR dengan Lake Formation

Amazon EMR dengan Lake Formation tersedia di semua wilayah yang tersedia.

Pertimbangan untuk Amazon EMR dengan Lake Formation untuk versi 7.9 dan sebelumnya

Pertimbangkan hal berikut saat menggunakan AWS Lake Formation EMR 7.9 dan versi sebelumnya.

  • Kontrol akses berbutir halus pada tingkat baris, kolom, dan sel tersedia di cluster dengan rilis Amazon EMR 6.15 dan lebih tinggi.

  • Pengguna dengan akses ke tabel dapat mengakses semua properti tabel itu. Jika Anda memiliki kontrol akses berbasis Lake Formation di atas tabel, tinjau tabel untuk memastikan bahwa properti tidak berisi data atau informasi sensitif apa pun.

  • Cluster EMR Amazon dengan Lake Formation tidak mendukung fallback Spark ke HDFS saat Spark mengumpulkan statistik tabel. Ini biasanya membantu mengoptimalkan kinerja kueri.

  • Operasi yang mendukung kontrol akses berdasarkan Lake Formation dengan tabel Apache Spark yang tidak diatur termasuk dan. INSERT INTO INSERT OVERWRITE

  • Operasi yang mendukung kontrol akses berdasarkan Lake Formation dengan Apache Spark dan Apache Hive meliputiSELECT,,,, DESCRIBESHOW DATABASE, SHOW TABLE dan. SHOW COLUMN SHOW PARTITION

  • Amazon EMR tidak mendukung kontrol akses ke operasi berbasis Lake Formation berikut:

    • Menulis ke tabel yang diatur

    • Amazon EMR tidak mendukung. CREATE TABLE Amazon EMR 6.10.0 dan dukungan yang lebih tinggi. ALTER TABLE

    • Pernyataan DML selain INSERT perintah.

  • Ada perbedaan kinerja antara kueri yang sama dengan dan tanpa kontrol akses berbasis Lake Formation.

  • Anda hanya dapat menggunakan Amazon EMR dengan Lake Formation untuk pekerjaan Spark.

  • Propagasi Identitas Tepercaya tidak didukung dengan hierarki multi-katalog di Katalog Data Glue. Untuk informasi selengkapnya, lihat Bekerja dengan hierarki multi-katalog di Katalog Data AWS Glue.

Pertimbangan untuk Amazon EMR dengan Lake Formation untuk versi 7.10 dan yang lebih baru

Pertimbangkan hal berikut saat menggunakan Amazon EMR dengan AWS Lake Formation EMR 7.10 dan versi yang lebih baru.

  • Amazon EMR mendukung kontrol akses berbutir halus melalui Lake Formation hanya untuk Apache Hive, Apache Iceberg, Apache Delta dan Apache Hudi tabel. Format Apache Hive termasuk Parket, ORC, dan xSV CSV.

  • Untuk aplikasi yang mendukung Lake Formation, log Spark ditulis ke Amazon S3 dalam dua grup: log ruang sistem dan log ruang pengguna. Log ruang sistem mungkin berisi informasi sensitif seperti skema tabel lengkap. Untuk melindungi data ini, Amazon EMR menyimpan log ruang sistem di lokasi terpisah dari log ruang pengguna. Sangat disarankan agar administrator akun tidak memberikan pengguna akses ke log ruang sistem.

  • Jika Anda mendaftarkan lokasi tabel dengan Lake Formation, akses data akan dikontrol secara eksklusif oleh izin peran yang digunakan untuk pendaftaran, bukan oleh peran runtime pekerjaan Amazon EMR. Jika peran registrasi salah dikonfigurasi, pekerjaan yang mencoba mengakses tabel akan gagal.

  • Anda tidak dapat mematikan DynamicResourceAllocation untuk pekerjaan Lake Formation.

  • Anda hanya dapat menggunakan Lake Formation dengan pekerjaan Spark.

  • Amazon EMR dengan Lake Formation hanya mendukung satu sesi Spark selama pekerjaan.

  • Amazon EMR dengan Lake Formation hanya mendukung kueri tabel lintas akun yang dibagikan melalui tautan sumber daya.

  • Berikut ini tidak didukung:

    • Kumpulan data terdistribusi yang tangguh (RDD)

    • Streaming percikan

    • Menulis dengan izin Lake Formation yang diberikan

    • Kontrol akses untuk kolom bersarang

  • Amazon EMR memblokir fungsionalitas yang mungkin merusak isolasi lengkap driver sistem, termasuk yang berikut ini:

    • UDTs, HiveUDFs, dan fungsi apa pun yang ditentukan pengguna yang melibatkan kelas khusus

    • Sumber data kustom

    • Pasokan stoples tambahan untuk ekstensi Spark, konektor, atau metastore

    • Perintah ANALYZE TABLE

  • Untuk menegakkan kontrol akses, EXPLAIN PLAN dan operasi DDL seperti DESCRIBE TABLE tidak mengekspos informasi terbatas.

  • Amazon EMR membatasi akses ke driver sistem Spark log pada aplikasi yang mendukung Lake Formation. Karena driver sistem berjalan dengan izin tinggi, peristiwa dan log yang dihasilkan driver sistem dapat mencakup informasi sensitif. Untuk mencegah pengguna atau kode yang tidak sah mengakses data sensitif ini, Amazon EMR menonaktifkan akses ke log driver sistem.

    Log profil sistem selalu disimpan dalam penyimpanan terkelola - ini adalah pengaturan wajib yang tidak dapat dinonaktifkan. Log ini disimpan dengan aman dan dienkripsi menggunakan kunci KMS yang Dikelola Pelanggan atau kunci KMS Terkelola AWS .

    Jika aplikasi EMR Amazon Anda berada dalam subnet pribadi dengan titik akhir VPC untuk Amazon S3 dan Anda melampirkan kebijakan titik akhir untuk mengontrol akses, sebelum pekerjaan Anda dapat mengirim data log ke AWS Amazon S3 Terkelola, Anda harus menyertakan izin yang dirinci dalam Penyimpanan terkelola dalam kebijakan VPC Anda ke titik akhir gateway S3. Untuk permintaan pemecahan masalah, hubungi AWS dukungan.

  • Jika Anda mendaftarkan lokasi tabel dengan Lake Formation, jalur akses data akan melewati kredensyal yang disimpan Lake Formation terlepas dari izin IAM untuk peran runtime pekerjaan Amazon EMR. Jika Anda salah mengonfigurasi peran yang terdaftar dengan lokasi tabel, pekerjaan yang dikirimkan yang menggunakan peran dengan izin IAM S3 ke lokasi tabel akan gagal.

  • Menulis ke tabel Lake Formation menggunakan izin IAM daripada izin yang diberikan Lake Formation. Jika peran runtime pekerjaan Anda memiliki izin S3 yang diperlukan, Anda dapat menggunakannya untuk menjalankan operasi penulisan.

Berikut ini adalah pertimbangan dan batasan saat menggunakan Apache Iceberg:

  • Anda hanya dapat menggunakan Apache Iceberg dengan katalog sesi dan tidak sewenang-wenang bernama katalog.

  • Tabel gunung es yang terdaftar di Lake Formation hanya mendukung tabel metadatahistory,,,, metadata_log_entriessnapshots, files dan. manifests refs Amazon EMR menyembunyikan kolom yang mungkin memiliki data sensitif, sepertipartitions,, dan. path summaries Batasan ini tidak berlaku untuk tabel Gunung Es yang tidak terdaftar di Lake Formation.

  • Tabel yang tidak Anda daftarkan di Lake Formation mendukung semua prosedur yang disimpan Gunung Es. Prosedur register_table dan migrate prosedur tidak didukung untuk tabel apa pun.

  • Kami menyarankan Anda menggunakan Iceberg DataFrameWriter V2 alih-alih V1.

Pertimbangan untuk Amazon EMR dengan Lake Formation untuk versi 7.12 dan yang lebih baru

Umum

Tinjau batasan berikut saat menggunakan Lake Formation dengan Amazon EMR.

Izin

  • Untuk menegakkan kontrol akses, EXPLORE PLAN dan operasi DDL seperti DESCRIBE TABLE tidak mengekspos informasi terbatas.

  • Saat Anda mendaftarkan lokasi tabel dengan Lake Formation, akses data menggunakan kredensyal yang disimpan Lake Formation, bukan izin IAM peran runtime pekerjaan EMR Tanpa Server. Pekerjaan akan gagal jika peran terdaftar untuk lokasi tabel salah dikonfigurasi, bahkan ketika peran runtime memiliki izin IAM S3 untuk lokasi tersebut.

  • Dimulai dengan Amazon EMR 7.12, Anda dapat menulis ke tabel Hive dan Iceberg yang ada menggunakan DataFrameWriter (V2) dengan kredensyal Lake Formation dalam mode append. Untuk operasi menimpa atau saat membuat tabel baru, EMR menggunakan kredensyal peran runtime untuk memodifikasi data tabel.

  • Batasan berikut berlaku saat menggunakan tampilan atau tabel cache sebagai data sumber (batasan ini tidak berlaku untuk tampilan AWS Glue Data Catalog):

    • Untuk operasi MERGE, DELETE, dan UPDATE

      • Didukung: Menggunakan tampilan dan tabel cache sebagai tabel sumber.

      • Tidak didukung: Menggunakan tampilan dan tabel cache dalam klausa penetapan dan kondisi.

    • Untuk CREATE OR REPLACE dan REPLACE TABLE AS SELECT operasi:

      • Tidak didukung: Menggunakan tampilan dan tabel cache sebagai tabel sumber.

  • Tabel Delta Lake dengan UDFs data sumber mendukung operasi MERGE, DELETE, dan UPDATE hanya ketika vektor penghapusan diaktifkan.

Log dan debugging

  • Amazon EMR membatasi akses ke driver sistem Spark log pada aplikasi yang mendukung Lake Formation. Karena driver sistem berjalan dengan izin tinggi, peristiwa dan log yang dihasilkan driver sistem dapat mencakup informasi sensitif. Untuk mencegah pengguna atau kode yang tidak sah mengakses data sensitif ini, Amazon EMR menonaktifkan akses ke log driver sistem.

    Log profil sistem selalu disimpan dalam penyimpanan terkelola - ini adalah pengaturan wajib yang tidak dapat dinonaktifkan. Log ini disimpan dengan aman dan dienkripsi menggunakan kunci KMS yang Dikelola Pelanggan atau kunci KMS Terkelola AWS .

Gunung es

Tinjau pertimbangan berikut saat menggunakan Apache Iceberg:

  • Anda hanya dapat menggunakan Apache Iceberg dengan katalog sesi dan tidak sewenang-wenang bernama katalog.

  • Tabel gunung es yang terdaftar di Lake Formation hanya mendukung tabel metadatahistory,,,, metadata_log_entriessnapshots, files dan. manifests refs Amazon EMR menyembunyikan kolom yang mungkin memiliki data sensitif, sepertipartitions,, dan. path summaries Batasan ini tidak berlaku untuk tabel Gunung Es yang tidak terdaftar di Lake Formation.

  • Tabel yang tidak terdaftar di Lake Formation mendukung semua prosedur yang disimpan Gunung Es. Prosedur register_table dan migrate prosedur tidak didukung untuk tabel apa pun.

  • Kami menyarankan Anda menggunakan Iceberg DataFrameWriter V2 alih-alih V1.